摘要
本发明涉及数据融合技术领域,具体涉及一种面向多模态数据的图像‑文本‑音频跨模态匹配方法,首先通过引入目标特征,构建多模态语义关联模型,获得与目标特征相关联的多模态语义关联特征,即图像关联特征、文本关联特征及音频关联特征。其次,将匹配任务划分为跨单模态匹配任务与跨双模态匹配任务,分别计算得到两类任务的目标函数,从而使用张量融合模块计算各子任务中的模态匹配分数。最后,使用改进的双向边际最大损失函数计算模型损失,根据两个匹配任务构建模型损失函数,实现图像、文本、音频的跨模态匹配。与现有的大多数图像‑文本跨模态匹配方法相比,本发明可以实现图像‑文本‑音频的跨模态匹配,且有效均衡匹配精度及模型复杂度。
技术关键词
跨模态匹配方法
面向多模态数据
文本
图像
音频匹配
序列特征
音频特征
定义
数据融合技术
RNN模型
音频编码器
卷积特征
语义
表达式
样本
复杂度
系统为您推荐了相关专利信息
快速识别方法
人体姿态估计
关键点
感知特征
图像生成模型
轻量级卷积神经网络
数据
光谱校正
二值化图像
高光谱相机
推理方法
实体链接技术
强化学习环境
大语言模型
节点