摘要
本发明公开了一种以文本驱动使图像和音频协同增强的多模态融合方法,属于多模态数据处理领域。本发明包括:构建多模态数据集和多模态融合网络;该融合网络包括图像特征提取网络、音频特征提取网络、文本语义向量提取网络和文本驱动模型;文本驱动模型用于将语义向量分别转换为适配图像特征向量、音频特征向量的特征空间的引导信息,以指导图像特征提取网络和音频特征提取网络进行增强特征协同表示;训练多模态融合模型以提升图像和音频的语义理解能力;同时,利用文本模型进一步增强图像和音频的协同表示。通过训练后的多模态融合模型,可以在多种应用场景中提升图像和音频内容的精准度和多样性。本发明有效提升了多模态融合的表现力和鲁棒性。
技术关键词
音频特征提取
语义向量
图像特征提取
文本
网络
数据
多模态注意力
融合方法
图像特征向量提取
注意力机制
模块
鲁棒性
分辨率
分词