摘要
本申请涉及一种模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:通过推理模型对样本问题进行推理得到推理结果;按样本问题的难易程度类别,确定对应的推理长度控制超参数;根据推理长度控制超参数和推理结果的推理长度,构建推理长度奖励函数,以及根据推理结果构建推理准确性奖励函数;根据推理长度奖励函数和推理准确性奖励函数,对推理模型进行基于强化学习的模型训练。采用本方法训练得到的推理模型可以兼顾推理效率和准确性,可以实现更加高效和准确的推理过程。
技术关键词
超参数
样本
模型训练方法
计算机设备
计算机程序产品
可读存储介质
模型训练装置
处理器
模型更新
答案
模块
存储器
标签
系统为您推荐了相关专利信息
计算机电源模块
故障预测模型
故障预测方法
梯度提升机
训练样本数据
金融数据处理方法
深度学习模型
注意力机制
样本
金融数据处理系统