摘要
本发明属于知识图谱嵌入技术领域,公开了一种基于最优传输与多头自注意力网络的多模态知识补全方法,包括:将不同模态的数据,使用相应模态的预训练模型提取结构、视觉图像和文本嵌入,将视觉图像向量表示和文本向量表示输入到多头自注意力网络层为实体的不同模态信息赋予权重,得到辅助模态信息的嵌入,将分别得到的三种模态的嵌入,以结构嵌入为基准,通过最优传输策略最小化Wasserstein距离将其他两个模态与结构嵌入对齐保持一致;将对齐的多模态嵌入与结构嵌入融合得到统一表示。本发明充分利用到多模态辅助信息,有效解决模态空间异质性。在链接预测方面实现更好的预测。
技术关键词
图像多模态
知识补全方法
文本
注意力
视觉
多模态特征
实体
消息
知识图谱嵌入技术
矩阵
网络
三元组
数据
基准
编码
关系
参数
策略
系统为您推荐了相关专利信息
分类特征
胶囊
样本
大规模语料库
交叉注意力机制
多模态数据融合
预警系统
超声弹性图像
数据采集模块
基层医疗机构
建筑信息模型
缺陷修复方法
训练语言模型
文本
数据