一种基于动态评价指标的强化学习模型训练方法和装置

正文

推荐专利

申请号：CN202510996750

申请日期：2025-07-18

公开号：CN120875086A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种基于动态评价指标的强化学习模型训练方法和装置。该方法包括：基于评分结果从预先确定原始训练数据中筛选目标训练数据；其中，评分结果是对原始训练数据的预测难度进行量化评分后形成的结论；依据强化学习模型对目标训练数据进行预测，输出预测结果，并依据预测结果和预设正确结果，计算评价指标值；确定目标评价指标阈值；其中，目标评价指标阈值依据强化学习模型预测过程进行动态调整；利用评价指标值和目标评价指标阈值，确定奖励函数值和/或惩罚函数值，并利用奖励函数值和/或惩罚函数值对强化学习模型进行参数优化。本技术方案，通过设置动态评价指标对强化学习模型进行训练，提高了强化学习模型训练的稳定性和效率。

技术关键词

强化学习模型数据指标动态训练装置参数模块

系统为您推荐了相关专利信息

一种运动处方的生成方法、装置、电子设备和存储介质

运动处方生成方法电子设备生成装置生成算法

非接触式的大型变压器老化检测方法、系统、装置和介质

大型变压器老化检测方法三维温度场网格模型时间滑动窗口

基于C167单片机的CAN通信板及其实现方法

通信板状态指示模块主控制器接口模块缓冲模块

用于车辆的盲点视图增强

车辆分割掩模执行对象检测意图非暂态计算机可读介质

用于监控安装操作的可穿戴式设备和生产线

可穿戴式设备压力传感器集成电路芯片实时定位系统数据记录单元

一种基于动态评价指标的强化学习模型训练方法和装置

站点导航

APP 下载