一种面向模态信息不平衡场景的多模态学习方法

AITNT
正文
推荐专利
一种面向模态信息不平衡场景的多模态学习方法
申请号:CN202411573461
申请日期:2024-11-06
公开号:CN119494366A
公开日期:2025-02-21
类型:发明专利
摘要
本发明公开了一种面向模态信息不平衡场景的多模态学习方法,涉及多模态信息学习技术领域,该方法包括预训练阶段和下游任务阶段;预训练阶段采集图像、文本、音频信息构建数据集,经映射模块获取统一编码向量,进行联合表征向量化组成三元表征向量,随机掩码后由Transformer编解码器处理以训练出模型M;下游任务阶段,多模态信息经映射模块和联合表征后传入模型M训练,生成多模态融合信息;本发明基于Transformer编解码器的模型M可有效解决传统模型面对模态不平衡的性能下降问题,使模态信息更均衡,提升多模态信息感知能力,结合下游任务数据训练提升下游任务学习效果,具有良好的落地性、高效性和通用性。
技术关键词
平衡场景 编码向量 学习方法 注意力机制 多模态信息 前馈神经网络 音频特征提取 文本 数据 图像特征提取 编码器 解码模块 编码模块 特征提取器 梅尔频率倒谱系数 编解码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号