一种以文本驱动使图像和音频协同增强的多模态融合方法

正文

推荐专利

申请号：CN202510589614

申请日期：2025-05-08

公开号：CN120524413A

公开日期：2025-08-22

类型：发明专利

摘要

本发明公开了一种以文本驱动使图像和音频协同增强的多模态融合方法，属于多模态数据处理领域。本发明包括：构建多模态数据集和多模态融合网络；该融合网络包括图像特征提取网络、音频特征提取网络、文本语义向量提取网络和文本驱动模型；文本驱动模型用于将语义向量分别转换为适配图像特征向量、音频特征向量的特征空间的引导信息，以指导图像特征提取网络和音频特征提取网络进行增强特征协同表示；训练多模态融合模型以提升图像和音频的语义理解能力；同时，利用文本模型进一步增强图像和音频的协同表示。通过训练后的多模态融合模型，可以在多种应用场景中提升图像和音频内容的精准度和多样性。本发明有效提升了多模态融合的表现力和鲁棒性。

技术关键词

音频特征提取语义向量图像特征提取文本网络数据多模态注意力融合方法图像特征向量提取注意力机制模块鲁棒性分辨率分词

一种以文本驱动使图像和音频协同增强的多模态融合方法

站点导航

APP 下载