摘要
本发明属于信息处理技术领域,提供了一种语音场景下的小样本烟草实体识别方法及系统,在获取烟草文本语料数据并将其转换为文本数据后,按照对文本数据表达作用贡献排名靠后的原则,对文字进行删除,使得单条文本数据中文字数量小于或等于设定阈值,在保证识别精度的基础上,避免了设别文本数据过大的问题,提高了模型设别及营销效率;同时,模型训练时,对标注后的烟草文本语料数据训练集,进行同音字的实体替换数据增强,以及进行同义词替换数据增强;在烟草的数据集语料中融入同音字的实体替换和同义词替换,解决了实体识别模型训练时语料不足,以及识别中误差传递的问题。
技术关键词
实体识别方法
文本
数据
命名实体识别模型
语音
样本
场景
实体识别系统
计算机程序产品
生成同义词
语句
词语
训练集
信息处理技术
处理器
烟草产品
中文分词
系统为您推荐了相关专利信息
知识图谱模型
答案
问答对生成方法
问答模型
文本
信息识别方法
识别置信度
对象
文本识别方法
置信度阈值