用于提升大语言模型数学能力的强化学习方法及相关装置

AITNT
正文
推荐专利
用于提升大语言模型数学能力的强化学习方法及相关装置
申请号:CN202510952668
申请日期:2025-07-10
公开号:CN120832930A
公开日期:2025-10-24
类型:发明专利
摘要
本发明属于人工智能技术领域,公开了一种用于提升大语言模型数学能力的强化学习方法及相关装置;其中,所述强化学习方法包括:获取待增强大语言模型以及强化学习数据集;采用强化学习对待增强大语言模型进行微调训练,且在微调训练同时应用蒙特卡罗估计对强化学习中产生的回答预测进行过程级别标注,获得微调后大语言模型以及标注数据集;基于标注数据集对过程奖励模型进行训练,获得训练好的过程奖励模型。本发明公开的技术方案,能够捕捉推理过程中存在的细粒度错误,增强了大语言模型的数学能力;另外,能够在强化学习的同时实现数据标注,节约了过程级标注数据的收集成本。
技术关键词
大语言模型 强化学习方法 蒙特卡罗 强化学习系统 数学 样本 更新模型参数 表达式 非暂态计算机可读存储介质 人工智能技术 数据获取模块 策略 处理器 答案 存储器 标签 线性 标记
系统为您推荐了相关专利信息
1
一种高产丹系种猪的选育方法
选育方法 基因筛选技术 基因编辑技术 分型技术 种猪选育技术
2
一种基于聚类算法的告警数据分析系统的实现方法
数据分析系统 聚类算法 DBSCAN算法 关键词 日志
3
一种以作业动作为基础的工时计算方法及系统
作业工位 工时计算方法 数学计算模型 信息更新 构建数学模型
4
一种基于动态图神经网络的大模型知识蒸馏架构与高效训练方法及系统
高效训练方法 蒸馏 学生 大语言模型 神经网络架构
5
基于多模态深度学习的瓦斯预抽采多目标优化决策方法
多模态深度学习 优化决策方法 深度确定性策略梯度 瓦斯抽采系统 储层物性参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号