摘要
本发明属于水库优化智能调度领域,具体提供一种基于深度强化学习和确定性策略梯度算法的水库多目标优化智能调度方法,包括收集目标水库的原始水文数据和水库特性曲线;建立包括目标函数和约束条件在内的多目标优化调度模型;将多目标优化调度模型映射为马尔科夫决策过程,建立相应的强化学习环境;选择深度强化学习确定性策略梯度算法与环境进行交互训练,搭建水库多目标优化智能调度模型;通过水库多目标优化智能调度模型对水库进行多目标优化智能调度。该方法解决了现有技术中深度强化学习方法普遍采用固定权重设计激励函数,导致所学习的调度策略灵活性不足,难以根据环境状态实现各水库调度目标的实时动态协调优化的问题。
技术关键词
确定性策略梯度
智能调度方法
水库
智能调度模型
优化调度模型
在线
算法
水文
深度强化学习方法
Softmax函数
水量
强化学习环境
更新网络参数
神经网络参数
定义
神经网络训练