一种多模态模型视觉感知能力增强方法、设备及介质

AITNT
正文
推荐专利
一种多模态模型视觉感知能力增强方法、设备及介质
申请号:CN202411826999
申请日期:2024-12-12
公开号:CN119809925B
公开日期:2025-10-24
类型:发明专利
摘要
本发明公开了一种多模态模型视觉感知能力增强方法、设备及介质,其中方法包括:采集图像数据,并根据图像提出文本问题;挑选基于同一语言模型训练的多个多模态语言大模型,并合并语言模型的参数;基于输入图像,利用多个视觉编码器提取视觉特征;输入文本,通过语言模型对输入文本进行特征提取,获得文本特征;拼接视觉特征与文本特征,获得融合特征;将融合特征输入语言模型进行推理,输出推理结果。本发明无需额外训练,能够有效提高多模态任务的性能,并减少了部署开销。另外,利用本发明的技术,可以通过融合不同视觉编码器的优势,显著提升多模态大模型的视觉感知效果,同时降低计算资源需求。本发明可广泛应用于人工智能领域。
技术关键词
多模态 视觉特征 文本 图像 融合特征 预训练语言模型 参数 摄影设备 电子设备 程序 数据 处理器 指令 模块 可读存储介质 存储器 格式
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号