摘要
本申请提供了一种模型优化方法、装置、电子设备和计算机可读存储介质,涉及强化学习技术领域,本申请提供的模型优化方法通过从智能体与环境以往交互所产生的历史策略经验中筛选出高质量的历史策略经验,然后利用高质量的历史策略经验和由总变差距离构建得到奖励函数优化智能体所采用的策略,不仅能够在强化学习中提高历史经验样本的利用率,并且还能够减少强化学习中智能体与环境交互所需的成本和时间,并且引入的奖励函数可以将策略差异作为负奖励,从而限制策略更新的幅度,有利于确保策略的稳定性。
技术关键词
模型优化方法
可执行程序代码
可读存储介质
电子设备
强化学习技术
优化装置
计算机
策略更新
存储器
广义
模块
处理器
样本
系统为您推荐了相关专利信息
FPGA逻辑单元
数据管理模块
抛放记录器
管理设备
北斗模块
三维模型
倾斜航空影像
裁剪方法
边缘轮廓
非暂态计算机可读存储介质
深度置信网络模型
考核评估方法
在线学习平台
数据
考核评估系统
营销系统
同步方法
关联规则挖掘算法
计量系统
数据同步
交通拥堵识别方法
图像像素
路段
交通道路拥堵
行驶车辆