一种面向模态信息不平衡场景的多模态学习方法

正文

推荐专利

申请号：CN202411573461

申请日期：2024-11-06

公开号：CN119494366A

公开日期：2025-02-21

类型：发明专利

摘要

本发明公开了一种面向模态信息不平衡场景的多模态学习方法，涉及多模态信息学习技术领域，该方法包括预训练阶段和下游任务阶段；预训练阶段采集图像、文本、音频信息构建数据集，经映射模块获取统一编码向量，进行联合表征向量化组成三元表征向量，随机掩码后由Transformer编解码器处理以训练出模型M；下游任务阶段，多模态信息经映射模块和联合表征后传入模型M训练，生成多模态融合信息；本发明基于Transformer编解码器的模型M可有效解决传统模型面对模态不平衡的性能下降问题，使模态信息更均衡，提升多模态信息感知能力，结合下游任务数据训练提升下游任务学习效果，具有良好的落地性、高效性和通用性。

技术关键词

平衡场景编码向量学习方法注意力机制多模态信息前馈神经网络音频特征提取文本数据图像特征提取编码器解码模块编码模块特征提取器梅尔频率倒谱系数编解码器

一种面向模态信息不平衡场景的多模态学习方法

站点导航

APP 下载