摘要
本发明涉及强化学习领域,提供了一种被控系统运行调度的高效率强化学习方法及装置,方法包括:对被控系统的各状态‑动作对进行采样,根据采样结果确定各状态下各动作的动作类型、Q因子样本方差及已消耗样本总量;利用采样数据分配算法确定各状态下各动作目标样本量;根据各动作目标样本量与各动作已消耗样本量,确定各动作补充采样数量;根据各动作补充采样数量进行补充采样,利用补充采样的仿真结果重新确定各动作的动作类型、各状态‑动作对的Q因子样本方差;调整已消耗采样总量,判断已消耗样本总量满足动作采样数量约束条件,若是,则输出各状态下观测到的最优动作,本发明能够区分各状态动作的重要性,提升采样效率及优化策略性能。
技术关键词
样本
因子
强化学习方法
总量
算法
高效率
控制策略
计算机设备
稳态概率
可读存储介质
学习装置
处理器
分析单元
数据项
存储器
噪声
系统为您推荐了相关专利信息
数据格式
标注方法
数据分类
特征提取单元
深度学习算法
状态跟踪方法
水库
Hurst指数
高性能数字信号处理器
边缘检测算法
智能分诊方法
患者病情信息
胸痛
图谱
强化学习算法
分布式优化调度方法
感知网络架构
能源需求量
特征提取模块
能源设备