摘要
本发明公开了一种基于强化学习的自适应控制器调优方法,包括如下步骤:S1、构建光伏控制任务环境;S2、将状态序列输入至长短期记忆网络中,输出嵌入式状态向量;S3、构建包含基础策略模块和快速适应模块的分层策略网络;S4、对分层策略网络进行训练,将嵌入式状态向量输入至分层策略网络生成控制器参数动作,利用多层前馈神经网络与光伏控制任务环境进行交互获取响应与奖励反馈,执行目标值计算和策略优化;S5、使用元学习优化方法获得通用策略初始参数;S6、将优化后的分层策略网络部署至目标光伏控制任务中。本发明适用于光伏控制等多工况动态环境,具备策略迁移能力强、鲁棒性高、自适应性能优越的优势。
技术关键词
分层策略
调优方法
生成控制器
多层前馈神经网络
元学习优化方法
模块
神经网络结构
循环神经网络模型
参数
基础
长短期记忆网络
执行控制器
梯度方法
网络部署
序列
三元组
系统为您推荐了相关专利信息
压缩空气储能电站
透平
相关性分析方法
换热器
BP神经网络
移动端交互
智能指引系统
多层前馈神经网络
指令
意图识别
建立等效模型
应变片传感器
PID控制算法
超声换能器系统
多层前馈神经网络
有限元等效模型
预训练模型
逆向设计方法
振子
局域共振原理