一种面向多约束被控系统的在线强化学习方法及装置

AITNT
正文
推荐专利
一种面向多约束被控系统的在线强化学习方法及装置
申请号:CN202410798671
申请日期:2024-06-20
公开号:CN118674065A
公开日期:2024-09-20
类型:发明专利
摘要
本发明涉及强化学习领域,提供了一种面向多约束被控系统的在线强化学习方法及装置,方法包括:对动作集合中各动作按预设采样量采样,根据采样结果确定各动作的Q因子的方差、各动作激活约束条件的QH因子的方差及已消耗采样量;根据各动作的已消耗采样量及预设采样增量计算已消耗样本总量;利用采样数据分配算法对上述量进行分析得到各动作的目标样本量;确定各动作补充采样量;根据各动作补充采样量进行补充采样,利用补充采样结果重新确定上述量;调整已消耗采样总量,判断已消耗样本总量是否小于预设总采样量,若否输出该状态的最优动作至被控系统。本发明适用于多约束被控系统,考虑了各约束条件的采样量分配,提高控制策略确定效率。
技术关键词
因子 系统控制策略 强化学习方法 样本 总量 算法 稳态 计算机设备 数据 可读存储介质 学习装置 在线 处理器 存储器 控制单元 噪声
系统为您推荐了相关专利信息
1
一种深埋硬岩隧洞TBM快速掘进方法及装置
掘进方法 隧洞 掘进作业 水平定向钻机 深度学习算法
2
一种可用于宽频超声检测变压器油中微水的方法
宽频 超声波 变压器油微水 核主成分分析 数据
3
基于轻量化多分支模型的实时缺陷检测系统及方法
多分支 缺陷检测系统 图像采集模块 PLC设备 缺陷检测方法
4
通行时间预测方法、装置及存储介质
时间预测模型 轨迹特征 时间预测方法 路径特征 时间预测装置
5
一种基于联邦学习和UNet的滑坡易发性评价方法
滑坡易发性评价方法 深度学习模型 数据 样本 联邦学习模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号