摘要
本申请涉及建筑能源的技术领域,尤其是涉及一种空调控制策略生成方法及系统,其包括:获取当前的环境参数及时间信息;基于时间信息和环境参数绘制热舒适曲线;获取包含最大温度值和最小温度值的奖励范围;初始化深度神经网络,进行初步训练,判断动作后的新状态是否处于奖励范围内以生成相应的第一奖励或惩罚,若存在惩罚,则基于惩罚对深度神经网络的参数进行更新;引入用户反馈信息,并进行进阶训练,获取基于第一奖励最大的动作进入新状态下的用户反馈信息以生成相应的第二奖励;结束后,将当前温度作为状态进行输入,根据最高的最终奖励对应的动作对空调进行调节。本申请具有实现缺少训练数据时提高空调强化学习的准确度的效果。
技术关键词
深度强化学习模型
空调控制策略
深度神经网络
生成方法
模版
曲线
数值
能耗
生成随机
物联网模块
生成系统
习惯
参数
算法
定义
数据
建筑