摘要
本发明公开了一种基于动态评价指标的强化学习模型训练方法和装置。该方法包括:基于评分结果从预先确定原始训练数据中筛选目标训练数据;其中,评分结果是对原始训练数据的预测难度进行量化评分后形成的结论;依据强化学习模型对目标训练数据进行预测,输出预测结果,并依据预测结果和预设正确结果,计算评价指标值;确定目标评价指标阈值;其中,目标评价指标阈值依据强化学习模型预测过程进行动态调整;利用评价指标值和目标评价指标阈值,确定奖励函数值和/或惩罚函数值,并利用奖励函数值和/或惩罚函数值对强化学习模型进行参数优化。本技术方案,通过设置动态评价指标对强化学习模型进行训练,提高了强化学习模型训练的稳定性和效率。
技术关键词
强化学习模型
数据
指标
动态
训练装置
参数
模块
系统为您推荐了相关专利信息
大型变压器
老化检测方法
三维温度场
网格模型
时间滑动窗口
通信板
状态指示模块
主控制器
接口模块
缓冲模块
车辆
分割掩模
执行对象检测
意图
非暂态计算机可读介质
可穿戴式设备
压力传感器
集成电路芯片
实时定位系统
数据记录单元