模型训练、任务执行方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202511165740

申请日期：2025-08-19

公开号：CN120930803A

公开日期：2025-11-11

类型：发明专利

摘要

本说明书提供的模型训练、任务执行方法、装置、电子设备及存储介质，在此方法中，可以先获取提示内容，以及目标模型针对该提示内容输出的答复内容和生成该答复内容的过程数据，接着将提示内容、答复内容和过程数据输入至奖励系统，由此得到过程数据中每个推理步骤的奖励值，最后基于每个推理步骤的奖励值，对目标模型进行迭代训练。该方法的奖励系统不再针对样本的token生成奖励值，而是针对过程数据中的每个推理步骤生成奖励值，这使得目标模型在训练过程中能够关注答复内容的整体性和逻辑性，进而提高目标模型在复杂任务中的性能和稳定性，以及模型的鲁棒性。

技术关键词

模型训练方法奖励系统数据样本模型训练装置电子设备处理器指令计算机程序产品模板可读存储介质鲁棒性标签模块精度存储器网络参数

系统为您推荐了相关专利信息

基于深度学习动态图神经网络技术检测电力系统网络安全行为的方法

检测电力系统神经网络技术编码器数据关系

一种基于流量数据分析IP是否存在异常访问的方法及系统

网络安全检测技术时间段目录基准模块

反应堆冷却剂泵的轴承故障检测方法、装置及相关设备

轴承故障检测方法指标推力轴承轴承瓦块剩余使用寿命

一种汽车智驾一体机数据回灌同步方法及系统

系统级芯片控制单元同步方法时钟偏移量车载测试平台

一种尾矿自动压滤系统及压滤方法

压滤机控制系统数据控制系统压滤系统数据运行系统采集设备

模型训练、任务执行方法、装置、电子设备及存储介质

站点导航

APP 下载