摘要
本发明提供了一种基于二级标注的知识图谱构建方法及装置,获取目标分类标签对应的目标文本数据集,并将目标文本数据集中同一属性值所对应的文本数据聚合成相应的文本数据子集;基于预设BIO二级标注规则对得到的文本数据子集中的待标注文本数据进行标注,并以得到的标注后文本数据为训练集训练实体识别模型;利用训练好的实体识别模型对每个文本数据子集中的未标注文本数据进行预测,得到未标注文本数据的预测结果;基于标注后文本数据和预测结果生成目标实体的三元组集合,并基于三元组集合构建知识图谱。采用本发明可以缓解现有文本实体识别技术中特定领域知识图谱构建的效率和准确性均较低的问题。
技术关键词
知识图谱构建方法
三元组
实体识别模型
数据
构建知识图谱
标注规则
CRF模型
知识图谱构建装置
文本实体识别
标签
训练集
索引算法
分词
标识
模块
元素