摘要
本说明书实施例公开了一种基于强化学习的暖通控制方法、设备及介质,涉及暖通控制技术领域,方法包括:利用预先构建的Mamba时序预测模型,确定目标建筑对应的预测温度数据,通过预测温度数据和预设的时空约束矩阵进行强化学习预训练,确定初始暖通控制策略;以初始暖通控制策略,对目标建筑内的暖通空调系统进行初始调控,采集目标建筑对应的实时建筑数据;根据实时建筑数据,对目标建筑进行动态分区,确定多个动态控制分区,以基于动态控制分区和时空约束矩阵,构建分区状态空间描述,利用渐进式探索策略,通过分区状态空间描述进行针对性的在线强化学习训练,生成目标建筑对应的暖通控制策略,以通过暖通控制策略对目标建筑进行控制。
技术关键词
暖通控制方法
分区
控制策略
建筑
数据
时序预测模型
暖通空调系统
克隆策略
非易失性计算机存储介质
计算机可执行指令
暖通控制设备
暖通控制技术
矩阵
序列
动态
克隆技术
在线
处理器
温差