摘要
本公开提供了视觉语言模型的训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、计算机视觉、大模型等技术领域。具体实现方案为:获取微调训练数据以及待训练的视觉语言模型;将微调训练数据中的样本图像以及文本指令输入视觉语言模型,获取预测结构化字段序列;根据微调训练数据中的样本结构化字段序列以及预测结构化字段序列,确定字段召回率;进而结合以字段召回率为输入奖励值的损失函数,对视觉语言模型进行参数调整处理,得到微调后的视觉语言模型;视觉语言模型能够学习如何提取准确的结构化字段序列,从而提高微调后的视觉语言模型对结构化字段序列的提取准确度,进而提高微调后的视觉语言模型的准确度。
技术关键词
字段
序列
样本
视觉
文本
网络
图像编码
注意力机制
指令
数值
图文
电子设备
图像处理装置
处理器
图像处理方法
参数
人工智能技术
计算机程序产品
系统为您推荐了相关专利信息
焊缝X射线
图像增强方法
生成器网络
生成对抗网络
图像增强模型
多视角
相机标定
三维骨架结构
识别方法
视频采集模块
智能组卷方法
人工智能技术
文本
知识点
图像特征向量
大语言模型
数据
需求分析方法
多模态
软件需求分析