一种数值推理大模型微调方法、系统、设备及存储介质

AITNT
正文
推荐专利
一种数值推理大模型微调方法、系统、设备及存储介质
申请号:CN202510897860
申请日期:2025-07-01
公开号:CN120409708B
公开日期:2025-10-10
类型:发明专利
摘要
本发明提出了一种数值推理大模型微调方法、系统、设备及存储介质,该方法包括以下步骤:构建数值推理数据集,数值推理数据集包括输入文本和参考答案;在GRPO框架中引入多维度奖励机制,包括:融合数值一致性奖励、单位合理性奖励、算式显式性奖励及幻觉惩罚项,将上述多维度奖励机制融合生成总奖励函数;基于该总奖励函数,构建改进GRPO损失函数;采用改进GRPO损失函数对大语言模型进行微调训练,最终输出微调后的大语言模型。本发明特别适用于增强大语言模型在数值类知识领域的记忆能力和数值推理能力,能够减少其产生数值幻觉的倾向。
技术关键词
大语言模型 微调方法 数值 表达式 语法结构 文本 微调系统 机制 可读存储介质 逻辑分析 处理器 数据 误差 框架 终端设备 模块 存储器 计算机 基线
系统为您推荐了相关专利信息
1
一种基于区域概率可达性的二进制定向灰盒模糊测试方法及系统
模糊测试方法 种子 变异策略 布局特征 节点
2
一种基于噪声学习的文本图像宠物重识别方法
重识别方法 图像 噪声集 表达式 样本
3
光纤激光器功率调节方法及系统
焊接参数控制 功率调节方法 激光焊接机 电阻变化值 曲线
4
一种电磁辐射源目标威胁等级评估方法、装置、存储介质和设备
等级评估方法 电磁辐射源 节点 网络结构 学习算法
5
基于智能体的数据处理方法、装置、电子设备和存储介质
实体 数据处理方法 数据处理装置 字段 画像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号