增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置

AITNT
正文
推荐专利
增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置
申请号:CN202510804247
申请日期:2025-06-16
公开号:CN120318606B
公开日期:2025-09-23
类型:发明专利
摘要
公开了一种增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置,所述方法包括:获取目标检测数据集和图文对数据集;对于两个数据集中每个图像,将当前图像输入视觉编码器得到第一视觉特征;将第一视觉特征输入增强编码模块得到第二视觉特征;若当前图像属于目标检测数据集,基于第二视觉特征对当前图像进行目标检测处理得到预测结果;基于预测结果和第一真实标签确定的检测损失,调整视觉编码器和增强编码模块中参数;若当前图像属于图文对数据集,将第二视觉特征和文本问题输入大语言模型得到预估答案;基于预估答案和第二真实标签确定的第一生成损失,调整视觉编码器、增强编码模块和大语言模型的参数。
技术关键词
视觉特征 编码模块 大语言模型 多模态 检测损失 图文 文本 答案 图像处理方法 标签 数据 参数 图像投影 对象 前馈神经网络 输入解码器 图像处理装置 指令 计算机程序产品
系统为您推荐了相关专利信息
1
智能眼镜的控制方法、装置、计算设备和系统
智能眼镜 多模态 云端服务器 指令 文本
2
一种多模态图像融合与识别方法
识别方法 模态特征 多头注意力机制 可见光图像 多模态图像数据
3
知识图谱摘要方法、系统、设备及介质
三元组 摘要方法 语义 图谱 计算机程序指令
4
基于大语言模型的事件评论观点分类方法及装置
大语言模型 观点 分类方法 文本 标签
5
一种基于场景感知的多标签电力设备渗漏油识别方法
渗漏油 场景类别 电力设备 图片 识别方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号