摘要
本申请提供了一种基于大模型的多源异构数据实体与关系抽取方法及装置,属于数据处理技术领域。方法包括:自动识别解析多种数据格式并进行字段名称的标准化处理;基于结构化数据,采用正则表达式或规则直接识别实体;基于非结构化数据,通过文本分割技术将非结构化数据拆分为文本单元,利用预训练模型进行实体提取和分类;采用图神经网络技术捕捉实体间的局部和全局关系特征,采用时序图神经网络跟踪和预测实体及其关系随时间的变化特征;将识别出的实体及其之间的关系转化为节点和边,并存储在图数据库中。通过综合利用图神经网络技术和时序图神经网络,实现了对实体及其关系的全面捕捉和动态跟踪。
技术关键词
关系抽取方法
实体
神经网络技术
预训练模型
异构
数据格式
文本
非易失性计算机存储介质
节点
时序
文件扩展名
文件头信息
递归神经网络
计算机可执行指令
识别模块
定义规则
数据处理技术
抽取装置