摘要
本发明属于信息抽取技术领域,具体是一种基于领域规则的半监督命名实体识别方法。解决了现有技术识别精度不高、模型收敛速度慢的问题,包括S1从不同领域的语料中提取领域特征词;S2从少量标注数据中构建领域特征词与实体的共现关系;S3对所有共现关系进行关联分析,将关联度高的共现关系转换为相应的规则构成规则库;S4利用未标注数据生成实体候选集和规则候选集;S5利用规则库中的规则对实体候选集在其出现的句子中进行规则匹配;S6对伪标签集合进行选择;S7:利用伪标签训练集对神经网络模型进行一轮训练;S8:得到训练好的模型;S9:使用训练好的模型对验证集进行实体识别,得到实体识别结果。
技术关键词
命名实体识别方法
少量标注数据
标签训练集
词语
神经网络模型
跨度
信息抽取技术
预训练语言模型
关系
多层感知机
注意力
频率
文本
精度