摘要
本发明公开了一种基于阅读理解的违规数据检测方法,涉及自然语言处理和人工智能技术领域。包括:获取包含仇恨言论的多模态数据,多模态数据包括语音数据和文本数据;利用语音识别系统将语音数据转换为文本数据,得到文本内容;利用大语言模型的思维链提示生成文本内容的逐步推理解释,根据文本内容的逐步推理解释得到初步预测类别标签;基于得到的文本内容的逐步推理解释,再次利用大语言模型生成最终预测类别标签;根据最终预测类别标签生成训练数据;利用训练数据对违规文本分类模型进行训练,得到训练后的检测结果。本发明显著提高了对隐晦、复杂违规言论的检测准确性。
技术关键词
数据检测方法
大语言模型
生成文本内容
预测类别
文本分类模型
语音识别系统
自然语言模型
生成训练数据
标签
社交媒体平台
多模态
爬虫技术
人工智能技术
框架
对象
优化器
系统为您推荐了相关专利信息
课件内容
页面结构
自动生成方法
大语言模型
教育场景