摘要
本发明涉及自然语言数据处理技术,具体涉及一种基于序列标注的多样性与歧义性的语义辨识和贯通方法。该方法首先采用“BIESO”标签来表示实体中词的位置边界信息;在实体位置边界标签的基础上添加了实体类别、关系类别标签和多样性标签,以体现实体间的关系。本发明将构建电力知识图谱的联合抽取任务转化为序列标注问题,同时提出了考虑复杂实体关系重叠情况的序列标注策略,通过添加实体关系类别并丰富实体角色,解决了传统序列标注中重叠关系抽取问题,实现对实体和关系类型的精准预测,有效提升了抽取的准确率,更有利于搭建准确专业的电力知识图谱。
技术关键词
贯通方法
标签
实体
序列
BERT模型
语义
关系
自然语言数据处理
代表
更新模型参数
CRF模型
BiLSTM模型
电力营销稽查
标记
标注策略
上下文特征
采集终端
矩阵
文本