摘要
本发明公开了基于多词分割和多层次信息提取的电力设备命名实体识别方法。对原始电力设备文本进行分词和多词分割,获取命名实体候选项;使用预训练模型获取字符级命名实体词嵌入表征集合;从词嵌入中分别提取局部特征和全局序列上下文依赖,生成上下文特征表征序列;融合上下文特征,并结合滑动标注窗口获取的上下文语义信息,进行多层次分类;最后基于条件随机场解码输出命名实体识别结果,包括实体边界和类别型号标注。本发明结合了多词分割和多层次信息提取技术,有效处理电力领域中常见的由多个词构成的专业术语和设备名称,综合利用了词汇、句法和语义等多层次信息,增强了对上下文的理解能力,提高了在复杂语境下的识别准确性。
技术关键词
命名实体识别方法
电力设备
多层次
上下文特征
上下文语义信息
序列
二分类器
字符
条件随机场
上下文语境信息
神经网络分类器
信息提取技术
注意力
正则化策略
训练语言模型
局部特征提取
维特比算法