摘要
本申请提供小区协同休眠策略生成模型训练方法及小区协同休眠方法,训练方法包括:基于各个单位时间各自对应的目标区域中的各个小区的历史流量数据以及用于控制各个小区协同休眠的专家演示动作数据,训练得到专家演示网络;将该专家演示网络迁移至强化学习智能体的当前神经网络和目标神经网络,以基于深度强化学习方式在该网络的基础上继续学习专家演示结果,不断更新优化策略,以训练得到小区协同休眠策略生成模型。本申请能够提高小区协同休眠策略生成模型的训练有效性及可靠性,并能够解决模仿学习中的决策受限问题,进而能够提高基于小区协同休眠策略生成模型生成的小区协同休眠策略的应用有效性及可靠性,以实现动态且自适应的小区开关决策。
技术关键词
休眠策略
小区
生成模型训练方法
历史流量数据
深度强化学习
神经网络训练
启发式搜索
休眠方法
流量预测模型
时序预测模型
满意度函数
功耗
工作状态定义
粒子
样本
误差函数
深度Q网络
随机梯度下降