一种针对图像的任务理解方法、模型训练方法及装置

正文

推荐专利

申请号：CN202510290472

申请日期：2025-03-11

公开号：CN120279387A

公开日期：2025-07-08

类型：发明专利

摘要

本说明书实施例提供了一种针对图像的任务理解方法、模型训练方法及装置。在任务理解方法中，提取待处理的一组图像的多个细粒度特征，并将其存储至视觉记忆库中；同时，对一组图像中的每个图像进行全局性的视觉编码，并通过预训练的视觉语言适配器将全局性的视觉特征映射到大模型的特征空间，得到初始全局理解。接着，将初始全局理解和用户任务指令输入大模型，通过所述大模型确定待回看内容，通过回看模块，从视觉记忆库中检索和提取与待回看内容相关的第一细粒度特征。这样，便可以将第一细粒度特征输入大模型，通过大模型输出针对用户任务指令的基于若干图像的理解内容。当图像和用户任务指令中包含隐私数据时，在处理过程中需要对隐私数据进行隐私保护处理。

技术关键词

细粒度特征视觉特征模型训练方法注意力参数适配器样本指令标识注意力机制模型训练装置键值图像分割计算机输入模块可读存储介质

系统为您推荐了相关专利信息

一种装备电路维修训练系统、方法及电子设备

维修训练系统网络传输模块控制面板信号测试点编辑

一种用于无人机视觉语言导航任务的数据增广方法

文本数据增广方法图像结构化自然语言无人机视觉

模型训练方法及目标装备的识别方法

模型训练方法深度学习模型图像注意力非易失性存储介质

一种运动学模型在线估计的柔性内窥镜机器人的最优视觉控制方法及系统

柔性内窥镜机器人视觉控制方法关节运动速度二次规划模型雅可比矩阵

模型训练方法、金融产品的指标值确定方法、装置及电子设备、存储介质

样本模型训练方法金融数据频率

一种针对图像的任务理解方法、模型训练方法及装置

站点导航

APP 下载