微地图标注文本的 敏感信息识别方法

殷硕硕 · 闫浩文 · 李精忠 · 王卓 · 王小龙 · 禄小敏 · 马犇 · 杨绮丽

研究背景

微地图是一种制作周期短、门槛低、传播速度快的个性化地图产品。由于其开放式标注特性,容易出现盲目或不当标注,增加了内容不合规的风险。亟需对微地图标注文本中的敏感信息进行自动识别,确保内容安全性。

安全挑战

用户标注缺乏系统性约束,存在敏感信息泄露风险

技术需求

传统人工审核效率低下,需要智能化解决方案

核心成果

0.9259
F1 Score性能指标
6.35%
比TextCNN提升幅度
98.95%
实证测试准确率

敏感信息分类体系

互联网非法信息

涉黄、涉赌、涉毒
涉暴、政治内容
非法广告信息

示例:毒品交易点

涉密信息

军事设施位置
国家安全机构
保密机构信息

示例:某某部队指挥部

涉稳信息

特殊人群信息
危险物品位置
重要设施信息

示例:粮油储备仓库

歧视信息

种族歧视内容
性别歧视表达
地域歧视言论

示例:某某族聚集地,多加小心

技术方法与架构

BERT模型优势

双向编码器

同时捕获上下文信息,增强语义理解能力

多头自注意力

关注词汇间依赖关系,捕获复杂语义联系

迁移学习

预训练模型微调,适应微地图文本特征

模型架构流程

1

数据获取

标准地图、百度图片、用户微地图

2

数据标注

基于法律法规的敏感性判别标准

3

模型训练

BERT微调与参数优化

4

敏感识别

自动化敏感信息判别

实验结果对比

性能指标对比

BERT (本文方法) 0.9259
F1 Score
DistilBERT 0.9155
F1 Score
DeBERTa 0.8691
F1 Score
TextCNN 0.8624
F1 Score

详细性能指标

模型 Accuracy Precision Recall
BERT 0.9581 0.9146 0.9374
DistilBERT 0.9533 0.9249 0.9064
DeBERTa 0.9270 0.8706 0.8677
TextCNN 0.9255 0.8903 0.8361

技术创新与应用价值

基于BERT的微地图敏感信息识别技术突破

智能化审核

替代传统人工审核,显著提升审核效率和准确性

安全保障

有效识别敏感信息,保护国家安全和社会稳定

性能优越

F1 Score达到0.9259,超越主流文本分类模型

应用前景与发展方向

当前成果

  • 构建微地图敏感信息数据集
  • 实现高精度自动化识别
  • 验证实际应用效果

未来发展

  • 多模态敏感信息识别
  • 图像符号敏感性审核
  • 综合智能审核系统