摘要
本方案公开了一种基于强化学习和注意力机制的暖通空调节能减排方法及系统,推理阶段包括B1.训练后的强化学习模型根据当前状态预测多个控制组合;B2.使用奖励函数选择前K个最高奖励的控制动作组合;B3.对所选的每个控制动作组合,预测执行该动作后的新状态;B4.对每个新状态预测新的控制动作组合,选择累积奖励最高的K个控制动作组合;B5.重复B3‑B4,直到找到最优的动作序列;B6.将累积奖励最高的动作序列作为最终决策。本方案利用强化学习进行暖通空调节能减排的控制,能够实现更精确的暖通控制,并且利用强化学习的环境学习能力使控制系统能够根据实时反馈自动调整控制策略以适应系统变化和外部条件的不确定性,从而不断提高系统贴合现实的控制能力。
技术关键词
暖通空调节能
减排方法
强化学习模型
注意力机制
序列
决策
阀门
表冷器
减排系统
加湿器
阶段
温湿度
加热器
控制策略
能耗
送风机
控制系统
离线
线性