摘要
本发明公开了一种多模态模型视觉感知能力增强方法、设备及介质,其中方法包括:采集图像数据,并根据图像提出文本问题;挑选基于同一语言模型训练的多个多模态语言大模型,并合并语言模型的参数;基于输入图像,利用多个视觉编码器提取视觉特征;输入文本,通过语言模型对输入文本进行特征提取,获得文本特征;拼接视觉特征与文本特征,获得融合特征;将融合特征输入语言模型进行推理,输出推理结果。本发明无需额外训练,能够有效提高多模态任务的性能,并减少了部署开销。另外,利用本发明的技术,可以通过融合不同视觉编码器的优势,显著提升多模态大模型的视觉感知效果,同时降低计算资源需求。本发明可广泛应用于人工智能领域。
技术关键词
多模态
视觉特征
文本
图像
融合特征
预训练语言模型
参数
摄影设备
电子设备
程序
数据
处理器
指令
模块
可读存储介质
存储器
格式