摘要
本发明提出一种基于语言模型的中文敏感词检测与纠正方法,其特点是采用用开源工具构建汉字近音关系图和敏感词表的方法,对用户评论内容进行潜在敏感词检测,对于检测到的若干敏感词,使用语言模型迭代筛选,该方法通过综合汉字近音关系图和敏感词库检测潜在敏感词,并基于预训练语言模型设计了无需训练微调和提示词的筛选方法,能有效纠正用户刻意用近音字掩盖的敏感词。本发明与现有技术相比具有对用户刻意进行近音字替换的敏感词进行纠正,从而辅助平台检测用户的仇恨、侮辱性言论,维护和谐健康的网络环境,方法简便,具有良好的运用前景。
技术关键词
纠正方法
汉字
BERT模型
预训练语言模型
文本
拼音
关系
词语
滑动窗口算法
数据
开源工具
筛选算法
辅助平台
大语言模型
字符
节点
筛选方法
关键词
爬虫