摘要
本发明属于人工智能技术领域,公开了一种用于提升大语言模型数学能力的强化学习方法及相关装置;其中,所述强化学习方法包括:获取待增强大语言模型以及强化学习数据集;采用强化学习对待增强大语言模型进行微调训练,且在微调训练同时应用蒙特卡罗估计对强化学习中产生的回答预测进行过程级别标注,获得微调后大语言模型以及标注数据集;基于标注数据集对过程奖励模型进行训练,获得训练好的过程奖励模型。本发明公开的技术方案,能够捕捉推理过程中存在的细粒度错误,增强了大语言模型的数学能力;另外,能够在强化学习的同时实现数据标注,节约了过程级标注数据的收集成本。
技术关键词
大语言模型
强化学习方法
蒙特卡罗
强化学习系统
数学
样本
更新模型参数
表达式
非暂态计算机可读存储介质
人工智能技术
数据获取模块
策略
处理器
答案
存储器
标签
线性
标记
系统为您推荐了相关专利信息
选育方法
基因筛选技术
基因编辑技术
分型技术
种猪选育技术
数据分析系统
聚类算法
DBSCAN算法
关键词
日志
作业工位
工时计算方法
数学计算模型
信息更新
构建数学模型
高效训练方法
蒸馏
学生
大语言模型
神经网络架构
多模态深度学习
优化决策方法
深度确定性策略梯度
瓦斯抽采系统
储层物性参数