一种基于语言模型的中文敏感词检测与纠正方法

正文

推荐专利

申请号：CN202510663494

申请日期：2025-05-22

公开号：CN120851005A

公开日期：2025-10-28

类型：发明专利

摘要

本发明提出一种基于语言模型的中文敏感词检测与纠正方法，其特点是采用用开源工具构建汉字近音关系图和敏感词表的方法，对用户评论内容进行潜在敏感词检测，对于检测到的若干敏感词，使用语言模型迭代筛选，该方法通过综合汉字近音关系图和敏感词库检测潜在敏感词，并基于预训练语言模型设计了无需训练微调和提示词的筛选方法，能有效纠正用户刻意用近音字掩盖的敏感词。本发明与现有技术相比具有对用户刻意进行近音字替换的敏感词进行纠正，从而辅助平台检测用户的仇恨、侮辱性言论，维护和谐健康的网络环境，方法简便，具有良好的运用前景。

技术关键词

纠正方法汉字 BERT模型预训练语言模型文本拼音关系词语滑动窗口算法数据开源工具筛选算法辅助平台大语言模型字符节点筛选方法关键词爬虫

一种基于语言模型的中文敏感词检测与纠正方法

站点导航

APP 下载