一种多模态模型视觉感知能力增强方法、设备及介质

正文

推荐专利

申请号：CN202411826999

申请日期：2024-12-12

公开号：CN119809925B

公开日期：2025-10-24

类型：发明专利

摘要

本发明公开了一种多模态模型视觉感知能力增强方法、设备及介质，其中方法包括：采集图像数据，并根据图像提出文本问题；挑选基于同一语言模型训练的多个多模态语言大模型，并合并语言模型的参数；基于输入图像，利用多个视觉编码器提取视觉特征；输入文本，通过语言模型对输入文本进行特征提取，获得文本特征；拼接视觉特征与文本特征，获得融合特征；将融合特征输入语言模型进行推理，输出推理结果。本发明无需额外训练，能够有效提高多模态任务的性能，并减少了部署开销。另外，利用本发明的技术，可以通过融合不同视觉编码器的优势，显著提升多模态大模型的视觉感知效果，同时降低计算资源需求。本发明可广泛应用于人工智能领域。

技术关键词

多模态视觉特征文本图像融合特征预训练语言模型参数摄影设备电子设备程序数据处理器指令模块可读存储介质存储器格式

一种多模态模型视觉感知能力增强方法、设备及介质

站点导航

APP 下载