摘要
本说明书实施例公开了一种视觉语言模型训练方法、装置、电子设备及存储介质。其中,该方法包括:获取初始模型和预设的视觉问答样本集,在视觉问答样本集中,包括多个视觉问答训练样本,各个视觉问答训练样本包含视觉输入信息和对应的目标视觉标签信息;随后基于视觉问答样本集对初始模型进行监督微调训练,以得到训练后的监督微调视觉语言模型;进而在监督微调视觉语言模型的基础上,结合视觉问答样本集构建强化训练视觉问答样本集,强化训练视觉问答样本集包括视觉问答困难样本集和/或视觉问答偏好样本集;从而采用强化训练视觉问答样本集对监督微调视觉语言模型进行额外的强化学习训练,得到目标视觉语言模型。
技术关键词
样本
语言模型训练方法
可执行程序代码
视觉问答模型
计算机存储介质
标签
计算机程序产品
模型训练装置
处理器
电子设备
推理装置
推理方法
存储器
数据
输入模块
参数
指令