摘要
本发明涉及一种基于深度强化学习和置信边界的负荷频率控制方法,属于自动发电控制技术领域。本发明首先使用双精度深度Q网络作为深度强化学习框架,解决智能体在不确定和非线性环境中做出决策的问题;其次根据负荷频率控制系统的区域控制误差与控制性能指标设计强化学习奖励函数,该奖励值用于网络的更新;然后使用三层前馈深度神经网络完成Q网络和目标Q网络的搭建,以实现特征映射并从样本中进行特征表达,节省学习过程的存储空间,使用网络和结合奖励值分别计算实际Q值和期望Q值,并计算两者的偏差损失,最后使用梯度下降更新Q网络和目标Q网络;最后在控制动作的随机探索的过程中引入最大置信边界算法来均衡随机动作的被选择概率,然后使用贪心算法结合UCB算法选择一个控制动作发送到环境,完成控制。
技术关键词
负荷频率控制方法
深度强化学习
深度Q网络
控制误差
贪心算法
更新网络参数
负荷频率控制模型
深度神经网络
样本
频率控制系统
发电控制技术
电力系统模型
强化学习框架
数据
深度学习网络
动作策略
系统为您推荐了相关专利信息
智能控制模型
污水
智能控制模块
参数
深度强化学习模型
氧疗控制系统
像素点
成像单元
模糊PID控制器
计算误差
深度强化学习
多传感器
深度Q网络
平台
运动状态信息
表面缺陷检测方法
图像块特征
PCB结构
语义
内存