语音场景下的小样本烟草实体识别方法及系统

正文

推荐专利

申请号：CN202410811699

申请日期：2024-06-21

公开号：CN118690746A

公开日期：2024-09-24

类型：发明专利

摘要

本发明属于信息处理技术领域，提供了一种语音场景下的小样本烟草实体识别方法及系统，在获取烟草文本语料数据并将其转换为文本数据后，按照对文本数据表达作用贡献排名靠后的原则，对文字进行删除，使得单条文本数据中文字数量小于或等于设定阈值，在保证识别精度的基础上，避免了设别文本数据过大的问题，提高了模型设别及营销效率；同时，模型训练时，对标注后的烟草文本语料数据训练集，进行同音字的实体替换数据增强，以及进行同义词替换数据增强；在烟草的数据集语料中融入同音字的实体替换和同义词替换，解决了实体识别模型训练时语料不足，以及识别中误差传递的问题。

技术关键词

实体识别方法文本数据命名实体识别模型语音样本场景实体识别系统计算机程序产品生成同义词语句词语训练集信息处理技术处理器烟草产品中文分词

系统为您推荐了相关专利信息

文档的问答对生成和问答方法、装置、计算机设备和可读存储介质

知识图谱模型答案问答对生成方法问答模型文本

一种基于数据挖掘的高速公路服务区单日负荷预测方法

高速公路服务区负荷预测方法变量数据样本

多模态数据的结构化分解及信息识别方法、介质及设备

信息识别方法识别置信度对象文本识别方法置信度阈值

一种伪标签质量解耦与修正的半监督实例分割方法及系统

实例分割方法标签阈值机制匈牙利算法教师

图像数据安全发送方法、图像数据安全接收方法、系统

加密数据图像编码信道数据安全数字水印

语音场景下的小样本烟草实体识别方法及系统

站点导航

APP 下载