摘要
本说明书实施例提供一种对用于解答数学题目的模型的训练方法及装置,方案包括:利用待训练的模型对多个样本数学题目进行解答,待训练的模型为经过微调后的模型;根据解答结果,确定待训练的模型解答错误的样本数学题目;从解答错误的样本数学题目中确定第一样本数学题目和第二样本数学题目;基于第一样本数学题目,利用预设的强化学习算法,对待训练的模型进行训练,得到预训练模型;预设的强化学习算法的奖励数据基于各个模型解答步骤包含的正确解答步骤的权重计算得到;基于第二样本数学题目,利用预设的强化学习算法,对预训练模型进行训练,得到训练后模型。本说明书实施例可以提高模型训练效率以及训练稳定性,提高模型性能。
技术关键词
强化学习算法
数学
样本
预训练模型
数据
指令
处理器
存储计算机程序
计算机程序产品
训练装置
模块
可读存储介质
存储器
系统为您推荐了相关专利信息
语义向量
关键点
对齐模块
训练样本集
特征提取模块
主控模块
伺服模块
CD播放系统
数模转换模块
碟片
配电变压器
档位调节方法
综合评价体系
指标
电压