一种被控系统运行调度的监督强化学习方法及装置

AITNT
正文
推荐专利
一种被控系统运行调度的监督强化学习方法及装置
申请号:CN202410804234
申请日期:2024-06-20
公开号:CN118674068A
公开日期:2024-09-20
类型:发明专利
摘要
本发明涉及强化学习领域,提供了一种被控系统运行调度的监督强化学习方法及装置,包括:确定各状态‑动作对的Q因子、Q因子样本方差以及已消耗样本总量;计算各状态下各非观测最优动作的重要性,将重要性排名前△M个非观测最优动作发送至监督者;调整已消耗采样总量,利用采样数据分配算法对各状态‑动作对的Q因子样本方差及已消耗样本总量进行分析得到各状态下各动作目标样本量;确定各动作补充采样数量;根据各动作补充采样数量进行补充采样,利用补充采样结果重新确定之前的步骤;判断已消耗样本总量满足动作采样数量约束条件,若是,则输出各状态下观测到的最优动作,本发明能够将监督者的监督与采样数据融合起来,提升学习效率及性能。
技术关键词
因子 样本 强化学习方法 总量 算法 数据 控制策略 计算机设备 稳态概率 可读存储介质 学习装置 处理器 分析单元 存储器 指标 噪声
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号