摘要
本发明提供一种多模态大模型的推理增强方法及系统,该方法包括:通过多模态大模型自采样生成思维链推理数据;思维链推理数据包括针对问题的正确答案样本和错误答案样本;基于思维链推理数据,对多模态大模型进行基础推理增强训练,得到基础推理增强后的模型;基础推理增强为增强多模态大模型的正确答案生成的准确性;采用组相对策略优化算法对基础推理增强后的模型进行过程推理增强训练,得到最终推理增强的多模态大模型;过程推理增强为增强多模态大模型的思维链质量;组相对策略优化算法通过兼顾思维链质量和答案正确的组内相对奖励来优化模型。本发明的方法能够同时提升模型推理准确性和思维链生成质量。
技术关键词
多模态
答案
基础
样本
策略
非暂态计算机可读存储介质
算法
数据
处理器
参数
格式
计算机程序产品
学习方法
模型更新
存储器
电子设备
模块