摘要
本发明涉及金融和医疗场景的多模态数据处理技术领域,公开了基于知识增强的多模态数据融合方法、装置、设备及介质,方法包括:预先获取图像‑正文本的正样本对并进行语义负样本处理,得到负样本对;对正样本对和负样本对进行场景图知识增强处理后分别输入初始模型进行样本向量点积对比训练,并通过构建的损失函数进行训练优化后输出知识增强编码模型;将图像组‑文本或图像‑文本组的待匹配数据输入知识增强编码模型进行向量点积对比,输出待测数据中向量点积结果的最大值所对应的图像与样本,作为多模态数据融合的最优匹配结果。本发明通过场景图知识生成高质量负样本,并对场景图知识增强处理,增强了模型对结构化信息的学习能力和表示能力。
技术关键词
数据融合方法
神经网络模型
样本
三元组
多模态数据融合
图像嵌入
文本编码器
图像编码器
数据融合装置
注意力机制
语义
模型训练模块
医疗场景
可读存储介质
数据处理技术