摘要
本发明属于计算机视觉技术领域,提出一种基于生成式模型的多模态融合方法及系统,包括:构建基于CLIP的神经网络模型;构建生成式模型;将多模态训练数据输入所述神经网络模型,通过所述图像编码器和文本编码器提取多模态训练数据的初始特征,将所述初始特征输入生成式模型得到重构特征;基于所述初始特征与重构特征构建缓存式适配器,基于所述适配器更新所述神经网络模型的先验知识,得到多模态融合后的特征表示。本发明降低了数据样本的差异对多模态融合效果的影响。
技术关键词
神经网络模型
融合方法
图像编码器
文本编码器
多模态
适配器
计算机视觉技术
关键字
特征提取模块
融合系统
多层感知机
数据
重构模块
表达式
处理器
存储器
系统为您推荐了相关专利信息
生成对抗网络
光伏组件表面
分层注意力
区域检测算法
多模态特征
调音方法
音频设备
音乐
音频播放设备
傅里叶变换处理
三维面片模型
三维模型生成方法
校正
纹理
噪声图像