一种基于动态评价指标的强化学习模型训练方法和装置

AITNT
正文
推荐专利
一种基于动态评价指标的强化学习模型训练方法和装置
申请号:CN202510996750
申请日期:2025-07-18
公开号:CN120875086A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种基于动态评价指标的强化学习模型训练方法和装置。该方法包括:基于评分结果从预先确定原始训练数据中筛选目标训练数据;其中,评分结果是对原始训练数据的预测难度进行量化评分后形成的结论;依据强化学习模型对目标训练数据进行预测,输出预测结果,并依据预测结果和预设正确结果,计算评价指标值;确定目标评价指标阈值;其中,目标评价指标阈值依据强化学习模型预测过程进行动态调整;利用评价指标值和目标评价指标阈值,确定奖励函数值和/或惩罚函数值,并利用奖励函数值和/或惩罚函数值对强化学习模型进行参数优化。本技术方案,通过设置动态评价指标对强化学习模型进行训练,提高了强化学习模型训练的稳定性和效率。
技术关键词
强化学习模型 数据 指标 动态 训练装置 参数 模块
系统为您推荐了相关专利信息
1
一种运动处方的生成方法、装置、电子设备和存储介质
运动处方 生成方法 电子设备 生成装置 生成算法
2
非接触式的大型变压器老化检测方法、系统、装置和介质
大型变压器 老化检测方法 三维温度场 网格模型 时间滑动窗口
3
基于C167单片机的CAN通信板及其实现方法
通信板 状态指示模块 主控制器 接口模块 缓冲模块
4
用于车辆的盲点视图增强
车辆 分割掩模 执行对象检测 意图 非暂态计算机可读介质
5
用于监控安装操作的可穿戴式设备和生产线
可穿戴式设备 压力传感器 集成电路芯片 实时定位系统 数据记录单元
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号