摘要
本发明提供了一种序列标注优化方法、系统、计算机设备及介质,属于计算机应用及自然语言处理技术领域。该方法包括以下步骤:S1、对文本数据集进行预处理,构建预处理后的数据集;S2、获取预处理后的数据集中的词向量;S3、将获取的词向量同时输入到标签分类器和两个不同的偏移量分类器中,分别获取标签序列和偏移量序列;S4、基于获取的标签序列提取实体跨度集;S5、基于获取的偏移量序列,进行平滑处理,平滑偏移量序列中的噪声,并提取候选跨度集;S6、通过交并比策略过滤掉低质量的候选跨度,得到过滤后的候选跨度;S7、基于过滤后的候选跨度,更新标签序列中的相应实体跨度。本发明可以提高命名实体识别的准确性。
技术关键词
跨度
序列
分类器
标签
BiLSTM模型
多层感知机
计算机设备
数据
滑动窗口
命名实体识别
策略
噪声
过滤模块
文本
语义特征
解码模块
自然语言
处理器
系统为您推荐了相关专利信息
识别方法
注意力
全局平均池化
双线性插值方法
卷积模块
概率积分法
人工鱼群算法
参数反演方法
公告牌
煤矿地质灾害防治
行人属性识别
行人检测系统
拥挤场景
行人检测模型
注意力