摘要
本发明公开了一种多模态关系提取方法,具体是涉及到一种非配对数据下的多模态关系提取方法、装置及电子设备。方法包括:对图像模态数据进行特征提取,得到多个不同层次的视觉特征,以及对文本模态数据进行特征提取,得到最终层文本特征;基于交叉注意力机制将视觉特征与最终层文本特征进行融合,得到视觉特征对应的层次化视觉特征;将层次化视觉特征与最终层文本特征进行融合处理,得到层次化视觉特征对应的多模态特征;对多个层次化视觉特征、多个多模态特征以及最终层文本特征进行聚合,得到多模态融合特征;将多模态融合特征输入预测模块进行关系提取,得到关系提取结果。本方法可提高非配对数据的多模态关系提取结果的准确度。
技术关键词
视觉特征
关系提取方法
融合特征
多模态特征
交叉注意力机制
文本
Softmax函数
图像编码
特征提取模块
数据
电子设备
矩阵
处理器
存储器
系统为您推荐了相关专利信息
原始图像数据
关键点
特征提取模块
多尺度特征
测地线距离
医学图像分割方法
医学图像分割网络
医学图像分割模型
文本
交叉注意力机制