一种基于语言模型的中文敏感词检测与纠正方法

AITNT
正文
推荐专利
一种基于语言模型的中文敏感词检测与纠正方法
申请号:CN202510663494
申请日期:2025-05-22
公开号:CN120851005A
公开日期:2025-10-28
类型:发明专利
摘要
本发明提出一种基于语言模型的中文敏感词检测与纠正方法,其特点是采用用开源工具构建汉字近音关系图和敏感词表的方法,对用户评论内容进行潜在敏感词检测,对于检测到的若干敏感词,使用语言模型迭代筛选,该方法通过综合汉字近音关系图和敏感词库检测潜在敏感词,并基于预训练语言模型设计了无需训练微调和提示词的筛选方法,能有效纠正用户刻意用近音字掩盖的敏感词。本发明与现有技术相比具有对用户刻意进行近音字替换的敏感词进行纠正,从而辅助平台检测用户的仇恨、侮辱性言论,维护和谐健康的网络环境,方法简便,具有良好的运用前景。
技术关键词
纠正方法 汉字 BERT模型 预训练语言模型 文本 拼音 关系 词语 滑动窗口算法 数据 开源工具 筛选算法 辅助平台 大语言模型 字符 节点 筛选方法 关键词 爬虫
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号