摘要
本发明涉及强化学习领域,提供了一种面向多约束被控系统的在线强化学习方法及装置,方法包括:对动作集合中各动作按预设采样量采样,根据采样结果确定各动作的Q因子的方差、各动作激活约束条件的QH因子的方差及已消耗采样量;根据各动作的已消耗采样量及预设采样增量计算已消耗样本总量;利用采样数据分配算法对上述量进行分析得到各动作的目标样本量;确定各动作补充采样量;根据各动作补充采样量进行补充采样,利用补充采样结果重新确定上述量;调整已消耗采样总量,判断已消耗样本总量是否小于预设总采样量,若否输出该状态的最优动作至被控系统。本发明适用于多约束被控系统,考虑了各约束条件的采样量分配,提高控制策略确定效率。
技术关键词
因子
系统控制策略
强化学习方法
样本
总量
算法
稳态
计算机设备
数据
可读存储介质
学习装置
在线
处理器
存储器
控制单元
噪声
系统为您推荐了相关专利信息
掘进方法
隧洞
掘进作业
水平定向钻机
深度学习算法
多分支
缺陷检测系统
图像采集模块
PLC设备
缺陷检测方法
时间预测模型
轨迹特征
时间预测方法
路径特征
时间预测装置
滑坡易发性评价方法
深度学习模型
数据
样本
联邦学习模型