摘要
本发明提出了一种数值推理大模型微调方法、系统、设备及存储介质,该方法包括以下步骤:构建数值推理数据集,数值推理数据集包括输入文本和参考答案;在GRPO框架中引入多维度奖励机制,包括:融合数值一致性奖励、单位合理性奖励、算式显式性奖励及幻觉惩罚项,将上述多维度奖励机制融合生成总奖励函数;基于该总奖励函数,构建改进GRPO损失函数;采用改进GRPO损失函数对大语言模型进行微调训练,最终输出微调后的大语言模型。本发明特别适用于增强大语言模型在数值类知识领域的记忆能力和数值推理能力,能够减少其产生数值幻觉的倾向。
技术关键词
大语言模型
微调方法
数值
表达式
语法结构
文本
微调系统
机制
可读存储介质
逻辑分析
处理器
数据
误差
框架
终端设备
模块
存储器
计算机
基线
系统为您推荐了相关专利信息
焊接参数控制
功率调节方法
激光焊接机
电阻变化值
曲线
等级评估方法
电磁辐射源
节点
网络结构
学习算法