一种针对图像的任务理解方法、模型训练方法及装置

AITNT
正文
推荐专利
一种针对图像的任务理解方法、模型训练方法及装置
申请号:CN202510290472
申请日期:2025-03-11
公开号:CN120279387A
公开日期:2025-07-08
类型:发明专利
摘要
本说明书实施例提供了一种针对图像的任务理解方法、模型训练方法及装置。在任务理解方法中,提取待处理的一组图像的多个细粒度特征,并将其存储至视觉记忆库中;同时,对一组图像中的每个图像进行全局性的视觉编码,并通过预训练的视觉语言适配器将全局性的视觉特征映射到大模型的特征空间,得到初始全局理解。接着,将初始全局理解和用户任务指令输入大模型,通过所述大模型确定待回看内容,通过回看模块,从视觉记忆库中检索和提取与待回看内容相关的第一细粒度特征。这样,便可以将第一细粒度特征输入大模型,通过大模型输出针对用户任务指令的基于若干图像的理解内容。当图像和用户任务指令中包含隐私数据时,在处理过程中需要对隐私数据进行隐私保护处理。
技术关键词
细粒度特征 视觉特征 模型训练方法 注意力参数 适配器 样本 指令 标识 注意力机制 模型训练装置 键值 图像分割 计算机 输入模块 可读存储介质
系统为您推荐了相关专利信息
1
一种装备电路维修训练系统、方法及电子设备
维修训练系统 网络传输模块 控制面板 信号测试点 编辑
2
一种用于无人机视觉语言导航任务的数据增广方法
文本 数据增广方法 图像 结构化自然语言 无人机视觉
3
模型训练方法及目标装备的识别方法
模型训练方法 深度学习模型 图像 注意力 非易失性存储介质
4
一种运动学模型在线估计的柔性内窥镜机器人的最优视觉控制方法及系统
柔性内窥镜机器人 视觉控制方法 关节运动速度 二次规划模型 雅可比矩阵
5
模型训练方法、金融产品的指标值确定方法、装置及电子设备、存储介质
样本 模型训练方法 金融 数据 频率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号