摘要
本说明书提供的模型训练、任务执行方法、装置、电子设备及存储介质,在此方法中,可以先获取提示内容,以及目标模型针对该提示内容输出的答复内容和生成该答复内容的过程数据,接着将提示内容、答复内容和过程数据输入至奖励系统,由此得到过程数据中每个推理步骤的奖励值,最后基于每个推理步骤的奖励值,对目标模型进行迭代训练。该方法的奖励系统不再针对样本的token生成奖励值,而是针对过程数据中的每个推理步骤生成奖励值,这使得目标模型在训练过程中能够关注答复内容的整体性和逻辑性,进而提高目标模型在复杂任务中的性能和稳定性,以及模型的鲁棒性。
技术关键词
模型训练方法
奖励系统
数据
样本
模型训练装置
电子设备
处理器
指令
计算机程序产品
模板
可读存储介质
鲁棒性
标签
模块
精度
存储器
网络
参数
系统为您推荐了相关专利信息
轴承故障检测方法
指标
推力轴承
轴承瓦块
剩余使用寿命
系统级芯片
控制单元
同步方法
时钟偏移量
车载测试平台
压滤机控制系统
数据控制系统
压滤系统
数据运行系统
采集设备