摘要
本申请公开了一种多模态大模型的优化方法、装置和电子设备,方法包括:对基础多模态大模型进行训练,得到过程奖励模型;利用基础多模态大模型对训练图像进行图像描述的逐句推理;针对推理得到的每个当前句,利用所述过程奖励模型确定所述当前句的各个候选描述是否正确,将所述当前句的正确候选描述用于图像描述的下一句推理;基于逐句推理所得各句描述中成对的正确候选描述和错误候选描述,确定成对的正确图像描述和错误图像描述,作为过程监督数据;基于训练图像和所述过程监督数据对所述基础多模态大模型进行优化,得到抑制幻觉的多模态大模型。应用本申请,能够在进行图像描述时有效改善幻觉抑制的性能。
技术关键词
图像
多模态
数据
基础
损失函数取值
电子设备
样本
算法
可读存储介质
校正
标签
优化装置
组织
计算机
处理器
指令
参数