增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置

正文

推荐专利

申请号：CN202510804247

申请日期：2025-06-16

公开号：CN120318606B

公开日期：2025-09-23

类型：发明专利

摘要

公开了一种增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置，所述方法包括：获取目标检测数据集和图文对数据集；对于两个数据集中每个图像，将当前图像输入视觉编码器得到第一视觉特征；将第一视觉特征输入增强编码模块得到第二视觉特征；若当前图像属于目标检测数据集，基于第二视觉特征对当前图像进行目标检测处理得到预测结果；基于预测结果和第一真实标签确定的检测损失，调整视觉编码器和增强编码模块中参数；若当前图像属于图文对数据集，将第二视觉特征和文本问题输入大语言模型得到预估答案；基于预估答案和第二真实标签确定的第一生成损失，调整视觉编码器、增强编码模块和大语言模型的参数。

技术关键词

视觉特征编码模块大语言模型多模态检测损失图文文本答案图像处理方法标签数据参数图像投影对象前馈神经网络输入解码器图像处理装置指令计算机程序产品

系统为您推荐了相关专利信息

智能眼镜的控制方法、装置、计算设备和系统

智能眼镜多模态云端服务器指令文本

一种多模态图像融合与识别方法

识别方法模态特征多头注意力机制可见光图像多模态图像数据

知识图谱摘要方法、系统、设备及介质

三元组摘要方法语义图谱计算机程序指令

基于大语言模型的事件评论观点分类方法及装置

大语言模型观点分类方法文本标签

一种基于场景感知的多标签电力设备渗漏油识别方法

渗漏油场景类别电力设备图片识别方法

增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置

站点导航

APP 下载