摘要
本申请实施例公开了一种多源异构实体的合并方法,涉及数据处理技术领域,能够满足复杂知识图谱的高精度实体合并需求。该方法将每个实体的多维度特征转换为多个特征文本之后,统一使用目标自然语言预训练模型对其进行向量编码再进行融合,以高效实现对实体显式特征、隐式语义以及图结构特征的联合建模;再利用预先构建并训练好的专用判别模型,依据融合向量来确定实体之间的相似度,以据此精准地选择实体进行合并。
技术关键词
实体
三元组
语义向量
文本
双分支结构
预训练模型
合并方法
自然语言
分层
异构
序列
数据处理技术
样本
编码
关系
元素
图谱