摘要
本公开公开了图像识别模型的训练方法及装置、电子设备和存储介质,涉及特征学习技术领域,主要技术方案包括:获取训练用问答数据;根据训练用问答数据及训练用图像数据对视觉通用模型进行训练,得到视觉通用模型生成的对训练用问答数据的预测答案;根据标准答案及预测答案计算视觉通用模型的损失函数,并根据损失函数对视觉通用模型进行参数调整。通过多种任务统一为问题‑答案数据对的方案,通过语言接口对多种视觉任务数据进行统一的训练,从而得到一种新的视觉通用模型,网络具有更好的视觉‑语言空间对齐能力,并且能够更好地处理和捕捉各种层级的视觉信息,能够有效提升主流多模态大语言模型的能力和效果。
技术关键词
视觉
图像识别模型
答案
数据
掩码矩阵
令牌
电子设备
多层感知器
多模态
文本
参数
大语言模型
对象识别
计算机程序产品
训练装置
处理器通信
指令
系统为您推荐了相关专利信息
智能识别系统
像素点
洗澡盆
图像扫描单元
麦克风模组
核电厂设备
健康评估指标
历史运行数据
数字孪生体
三维虚拟模型
性能预测方法
滑动轴承
齿轮泵
训练样本数据
性能预测模型