一种面向多模态数据的图像-文本-音频跨模态匹配方法

正文

推荐专利

申请号：CN202510256419

申请日期：2025-03-05

公开号：CN120105116A

公开日期：2025-06-06

类型：发明专利

摘要

本发明涉及数据融合技术领域，具体涉及一种面向多模态数据的图像‑文本‑音频跨模态匹配方法，首先通过引入目标特征，构建多模态语义关联模型，获得与目标特征相关联的多模态语义关联特征，即图像关联特征、文本关联特征及音频关联特征。其次，将匹配任务划分为跨单模态匹配任务与跨双模态匹配任务，分别计算得到两类任务的目标函数，从而使用张量融合模块计算各子任务中的模态匹配分数。最后，使用改进的双向边际最大损失函数计算模型损失，根据两个匹配任务构建模型损失函数，实现图像、文本、音频的跨模态匹配。与现有的大多数图像‑文本跨模态匹配方法相比，本发明可以实现图像‑文本‑音频的跨模态匹配，且有效均衡匹配精度及模型复杂度。

技术关键词

跨模态匹配方法面向多模态数据文本图像音频匹配序列特征音频特征定义数据融合技术 RNN模型音频编码器卷积特征语义表达式样本复杂度

系统为您推荐了相关专利信息

一种银行内人员动作行为精准快速识别方法

快速识别方法人体姿态估计关键点感知特征图像生成模型

一种耳廓指代分割方法和系统

视觉特征多模态特征文本解码模块多尺度特征

用于基于机器学习的医学成像事件检测和图像重建的方法和装置

脉冲存储器设备图像扫描系统计算机数据

一种基于高光谱图像的沃柑糖度检测方法

轻量级卷积神经网络数据光谱校正二值化图像高光谱相机

基于知识图谱的智能体推理方法

推理方法实体链接技术强化学习环境大语言模型节点

一种面向多模态数据的图像-文本-音频跨模态匹配方法

站点导航

APP 下载