一种面向多约束被控系统的在线强化学习方法及装置

正文

推荐专利

申请号：CN202410798671

申请日期：2024-06-20

公开号：CN118674065A

公开日期：2024-09-20

类型：发明专利

摘要

本发明涉及强化学习领域，提供了一种面向多约束被控系统的在线强化学习方法及装置，方法包括：对动作集合中各动作按预设采样量采样，根据采样结果确定各动作的Q因子的方差、各动作激活约束条件的QH因子的方差及已消耗采样量；根据各动作的已消耗采样量及预设采样增量计算已消耗样本总量；利用采样数据分配算法对上述量进行分析得到各动作的目标样本量；确定各动作补充采样量；根据各动作补充采样量进行补充采样，利用补充采样结果重新确定上述量；调整已消耗采样总量，判断已消耗样本总量是否小于预设总采样量，若否输出该状态的最优动作至被控系统。本发明适用于多约束被控系统，考虑了各约束条件的采样量分配，提高控制策略确定效率。

技术关键词

因子系统控制策略强化学习方法样本总量算法稳态计算机设备数据可读存储介质学习装置在线处理器存储器控制单元噪声

系统为您推荐了相关专利信息

一种深埋硬岩隧洞TBM快速掘进方法及装置

掘进方法隧洞掘进作业水平定向钻机深度学习算法

一种可用于宽频超声检测变压器油中微水的方法

宽频超声波变压器油微水核主成分分析数据

基于轻量化多分支模型的实时缺陷检测系统及方法

多分支缺陷检测系统图像采集模块 PLC设备缺陷检测方法

通行时间预测方法、装置及存储介质

时间预测模型轨迹特征时间预测方法路径特征时间预测装置

一种基于联邦学习和UNet的滑坡易发性评价方法

滑坡易发性评价方法深度学习模型数据样本联邦学习模型

一种面向多约束被控系统的在线强化学习方法及装置

站点导航

APP 下载