摘要
公开了一种增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置,所述方法包括:获取目标检测数据集和图文对数据集;对于两个数据集中每个图像,将当前图像输入视觉编码器得到第一视觉特征;将第一视觉特征输入增强编码模块得到第二视觉特征;若当前图像属于目标检测数据集,基于第二视觉特征对当前图像进行目标检测处理得到预测结果;基于预测结果和第一真实标签确定的检测损失,调整视觉编码器和增强编码模块中参数;若当前图像属于图文对数据集,将第二视觉特征和文本问题输入大语言模型得到预估答案;基于预估答案和第二真实标签确定的第一生成损失,调整视觉编码器、增强编码模块和大语言模型的参数。
技术关键词
视觉特征
编码模块
大语言模型
多模态
检测损失
图文
文本
答案
图像处理方法
标签
数据
参数
图像投影
对象
前馈神经网络
输入解码器
图像处理装置
指令
计算机程序产品
系统为您推荐了相关专利信息
识别方法
模态特征
多头注意力机制
可见光图像
多模态图像数据