摘要
本说明书实施例提供了一种针对图像的任务理解方法、模型训练方法及装置。在任务理解方法中,提取待处理的一组图像的多个细粒度特征,并将其存储至视觉记忆库中;同时,对一组图像中的每个图像进行全局性的视觉编码,并通过预训练的视觉语言适配器将全局性的视觉特征映射到大模型的特征空间,得到初始全局理解。接着,将初始全局理解和用户任务指令输入大模型,通过所述大模型确定待回看内容,通过回看模块,从视觉记忆库中检索和提取与待回看内容相关的第一细粒度特征。这样,便可以将第一细粒度特征输入大模型,通过大模型输出针对用户任务指令的基于若干图像的理解内容。当图像和用户任务指令中包含隐私数据时,在处理过程中需要对隐私数据进行隐私保护处理。
技术关键词
细粒度特征
视觉特征
模型训练方法
注意力参数
适配器
样本
指令
标识
注意力机制
模型训练装置
键值
图像分割
计算机
输入模块
可读存储介质
系统为您推荐了相关专利信息
维修训练系统
网络传输模块
控制面板
信号测试点
编辑
文本
数据增广方法
图像
结构化自然语言
无人机视觉
模型训练方法
深度学习模型
图像
注意力
非易失性存储介质
柔性内窥镜机器人
视觉控制方法
关节运动速度
二次规划模型
雅可比矩阵