摘要
本发明涉及一种基于多源数据的知识图谱构建方法、装置及设备,该方法包括:获取来自不同数据源的原始数据;对原始数据进行预处理,得到目标文本数据;其中,预处理包括:格式转换、文本清洗与规范化和/或分句与分段;通过预先优化的大型语言模型对目标文本数据进行知识抽取,得到包含原始实体、原始关系和原始属性的原始结构化数据;对原始结构化数据进行后处理,得到包含目标实体、目标关系和目标属性的目标结构化数据;其中,后处理包括:格式解析、实体标准化与消岐、关系与属性的验证;根据目标结构化数据对当前知识图谱的节点和边进行更新。本发明能够适应多源异构数据,提高知识图谱的准确性和一致性。
技术关键词
实体
知识图谱构建方法
关系
训练样本数据
文本
知识图谱构建装置
学生
格式
异常数据处理
多源异构数据
同义词
后处理模块
基准
数据获取模块
标签
分段
电子设备
词语