语音场景下的小样本烟草实体识别方法及系统

AITNT
正文
推荐专利
语音场景下的小样本烟草实体识别方法及系统
申请号:CN202410811699
申请日期:2024-06-21
公开号:CN118690746A
公开日期:2024-09-24
类型:发明专利
摘要
本发明属于信息处理技术领域,提供了一种语音场景下的小样本烟草实体识别方法及系统,在获取烟草文本语料数据并将其转换为文本数据后,按照对文本数据表达作用贡献排名靠后的原则,对文字进行删除,使得单条文本数据中文字数量小于或等于设定阈值,在保证识别精度的基础上,避免了设别文本数据过大的问题,提高了模型设别及营销效率;同时,模型训练时,对标注后的烟草文本语料数据训练集,进行同音字的实体替换数据增强,以及进行同义词替换数据增强;在烟草的数据集语料中融入同音字的实体替换和同义词替换,解决了实体识别模型训练时语料不足,以及识别中误差传递的问题。
技术关键词
实体识别方法 文本 数据 命名实体识别模型 语音 样本 场景 实体识别系统 计算机程序产品 生成同义词 语句 词语 训练集 信息处理技术 处理器 烟草产品 中文分词
系统为您推荐了相关专利信息
1
文档的问答对生成和问答方法、装置、计算机设备和可读存储介质
知识图谱模型 答案 问答对生成方法 问答模型 文本
2
一种基于数据挖掘的高速公路服务区单日负荷预测方法
高速公路服务区 负荷预测方法 变量 数据 样本
3
多模态数据的结构化分解及信息识别方法、介质及设备
信息识别方法 识别置信度 对象 文本识别方法 置信度阈值
4
一种伪标签质量解耦与修正的半监督实例分割方法及系统
实例分割方法 标签 阈值机制 匈牙利算法 教师
5
图像数据安全发送方法、图像数据安全接收方法、系统
加密数据 图像编码 信道 数据安全 数字水印
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号