摘要
本发明公开了一种面向模态信息不平衡场景的多模态学习方法,涉及多模态信息学习技术领域,该方法包括预训练阶段和下游任务阶段;预训练阶段采集图像、文本、音频信息构建数据集,经映射模块获取统一编码向量,进行联合表征向量化组成三元表征向量,随机掩码后由Transformer编解码器处理以训练出模型M;下游任务阶段,多模态信息经映射模块和联合表征后传入模型M训练,生成多模态融合信息;本发明基于Transformer编解码器的模型M可有效解决传统模型面对模态不平衡的性能下降问题,使模态信息更均衡,提升多模态信息感知能力,结合下游任务数据训练提升下游任务学习效果,具有良好的落地性、高效性和通用性。
技术关键词
平衡场景
编码向量
学习方法
注意力机制
多模态信息
前馈神经网络
音频特征提取
文本
数据
图像特征提取
编码器
解码模块
编码模块
特征提取器
梅尔频率倒谱系数
编解码器