一种数值推理大模型微调方法、系统、设备及存储介质

正文

推荐专利

申请号：CN202510897860

申请日期：2025-07-01

公开号：CN120409708B

公开日期：2025-10-10

类型：发明专利

摘要

本发明提出了一种数值推理大模型微调方法、系统、设备及存储介质，该方法包括以下步骤：构建数值推理数据集，数值推理数据集包括输入文本和参考答案；在GRPO框架中引入多维度奖励机制，包括：融合数值一致性奖励、单位合理性奖励、算式显式性奖励及幻觉惩罚项，将上述多维度奖励机制融合生成总奖励函数；基于该总奖励函数，构建改进GRPO损失函数；采用改进GRPO损失函数对大语言模型进行微调训练，最终输出微调后的大语言模型。本发明特别适用于增强大语言模型在数值类知识领域的记忆能力和数值推理能力，能够减少其产生数值幻觉的倾向。

技术关键词

大语言模型微调方法数值表达式语法结构文本微调系统机制可读存储介质逻辑分析处理器数据误差框架终端设备模块存储器计算机基线

系统为您推荐了相关专利信息

一种基于区域概率可达性的二进制定向灰盒模糊测试方法及系统

模糊测试方法种子变异策略布局特征节点

一种基于噪声学习的文本图像宠物重识别方法

重识别方法图像噪声集表达式样本

光纤激光器功率调节方法及系统

焊接参数控制功率调节方法激光焊接机电阻变化值曲线

一种电磁辐射源目标威胁等级评估方法、装置、存储介质和设备

等级评估方法电磁辐射源节点网络结构学习算法

基于智能体的数据处理方法、装置、电子设备和存储介质

实体数据处理方法数据处理装置字段画像

一种数值推理大模型微调方法、系统、设备及存储介质

站点导航

APP 下载