摘要
本发明涉及文本处理技术领域,具体涉及基于人工智能的敏感词精确过滤方法,该方法包括:采集待过滤目标文本句子;使用正则表达式和中文分词工具获取各目标文本句子的词汇序列,并获取所有目标文本句子的疑似敏感词集合,进而获取各目标文本句子的书写合理性;根据BERT模型获取各目标文本句子的情感分数;根据FastText模型获取疑似敏感词和敏感词词典中词汇之间的语义相关性,并获取目标文本句子中各敏感词的语义脱敏度,进而获取各目标文本句子的语义脱敏度;计算各目标文本句子的潜在敏感指数,进而对目标文本句子进行过滤。本发明旨在解决由于考虑目标文本句子的特征太少从而导致过滤结果较差的问题。
技术关键词
情感分析模型
过滤方法
中文分词工具
BERT模型
词典
指数
序列
语义向量
文本处理技术
LSTM模型
标签
频率
系统为您推荐了相关专利信息
指代消解方法
BiLSTM模型
BERT模型
文本
标注规则
语义检索方法
动态滑动窗口
Word2Vec模型
语句
特征向量库
风险评估方法
大语言模型
图片
数据
图像处理模块