摘要
本发明涉及一种智能调度方法,获取当前环境的状态信息;根据所述状态信息确定当前环境对应的补偿参数;将所述补偿参数输入至预设训练模型,输出对应的补偿动作;执行所述补偿动作,以实现智能调度;综合DQN算法、经验回放缓冲区和目标网络的优点,提出了深度确定策略梯度(DDPG)算法来解决连续状态行为空间中的深度强化学习问题。然而,由于DDPG算法中Actor网络和Q函数之间的相互作用,使得算法通常难以达到稳定,因此很难直接将DDPG算法应用到复杂的高维多智能体环境。
技术关键词
噪声参数
智能调度方法
智能调度装置
DQN算法
深度强化学习
处理器
模块
存储器
坐标
电子设备
网络
速度
策略