一种面向多模态数据的图像-文本-音频跨模态匹配方法

AITNT
正文
推荐专利
一种面向多模态数据的图像-文本-音频跨模态匹配方法
申请号:CN202510256419
申请日期:2025-03-05
公开号:CN120105116A
公开日期:2025-06-06
类型:发明专利
摘要
本发明涉及数据融合技术领域,具体涉及一种面向多模态数据的图像‑文本‑音频跨模态匹配方法,首先通过引入目标特征,构建多模态语义关联模型,获得与目标特征相关联的多模态语义关联特征,即图像关联特征、文本关联特征及音频关联特征。其次,将匹配任务划分为跨单模态匹配任务与跨双模态匹配任务,分别计算得到两类任务的目标函数,从而使用张量融合模块计算各子任务中的模态匹配分数。最后,使用改进的双向边际最大损失函数计算模型损失,根据两个匹配任务构建模型损失函数,实现图像、文本、音频的跨模态匹配。与现有的大多数图像‑文本跨模态匹配方法相比,本发明可以实现图像‑文本‑音频的跨模态匹配,且有效均衡匹配精度及模型复杂度。
技术关键词
跨模态匹配方法 面向多模态数据 文本 图像 音频匹配 序列特征 音频特征 定义 数据融合技术 RNN模型 音频编码器 卷积特征 语义 表达式 样本 复杂度
系统为您推荐了相关专利信息
1
一种银行内人员动作行为精准快速识别方法
快速识别方法 人体姿态估计 关键点 感知特征 图像生成模型
2
一种耳廓指代分割方法和系统
视觉特征 多模态特征 文本 解码模块 多尺度特征
3
用于基于机器学习的医学成像事件检测和图像重建的方法和装置
脉冲 存储器设备 图像扫描系统 计算机 数据
4
一种基于高光谱图像的沃柑糖度检测方法
轻量级卷积神经网络 数据 光谱校正 二值化图像 高光谱相机
5
基于知识图谱的智能体推理方法
推理方法 实体链接技术 强化学习环境 大语言模型 节点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号