研究背景
微地图是一种制作周期短、门槛低、传播速度快的个性化地图产品。由于其开放式标注特性,容易出现盲目或不当标注,增加了内容不合规的风险。亟需对微地图标注文本中的敏感信息进行自动识别,确保内容安全性。
安全挑战
用户标注缺乏系统性约束,存在敏感信息泄露风险
技术需求
传统人工审核效率低下,需要智能化解决方案
核心成果
0.9259
F1 Score性能指标
6.35%
比TextCNN提升幅度
98.95%
实证测试准确率
敏感信息分类体系
互联网非法信息
涉黄、涉赌、涉毒
涉暴、政治内容
非法广告信息
示例:毒品交易点
涉密信息
军事设施位置
国家安全机构
保密机构信息
示例:某某部队指挥部
涉稳信息
特殊人群信息
危险物品位置
重要设施信息
示例:粮油储备仓库
歧视信息
种族歧视内容
性别歧视表达
地域歧视言论
示例:某某族聚集地,多加小心
技术方法与架构
BERT模型优势
双向编码器
同时捕获上下文信息,增强语义理解能力
多头自注意力
关注词汇间依赖关系,捕获复杂语义联系
迁移学习
预训练模型微调,适应微地图文本特征
模型架构流程
1
数据获取
标准地图、百度图片、用户微地图
2
数据标注
基于法律法规的敏感性判别标准
3
模型训练
BERT微调与参数优化
4
敏感识别
自动化敏感信息判别
实验结果对比
性能指标对比
BERT (本文方法)
0.9259
F1 Score
DistilBERT
0.9155
F1 Score
DeBERTa
0.8691
F1 Score
TextCNN
0.8624
F1 Score
详细性能指标
| 模型 | Accuracy | Precision | Recall |
|---|---|---|---|
| BERT | 0.9581 | 0.9146 | 0.9374 |
| DistilBERT | 0.9533 | 0.9249 | 0.9064 |
| DeBERTa | 0.9270 | 0.8706 | 0.8677 |
| TextCNN | 0.9255 | 0.8903 | 0.8361 |