摘要
本发明涉及功率变换器管理技术领域,具体地说,涉及基于多经验回放池TD3算法的功率变换器控制方法。包括如下步骤:S1、构建功率变换器控制系统:功率变换器控制系统由功率变换器、动态感知层、策略优化层、轻量化执行层及PID控制器组成;S2、改进型TD3算法的实现:针对功率变换器控制特性改进TD3框架,采用多经验回放缓冲池的创新架构,将功率变换器的稳定性、瞬态惩罚和安全性作为综合奖励值的创新奖励函数,将Actor在线LSTM网络蒸馏成RBF网络。本发明设计采用TD3‑PID分层控制结构实现复杂工况下的优化控制;降低了对精确数学模型的依赖,同时通过强化学习实现了控制参数的智能寻优,提升了控制稳定性,同时显著降低计算复杂度,提升了模型的可解释性。
技术关键词
功率变换器
网络
在线
连续动作空间
误差
算法
缓冲池
电压
样本
蒸馏
分层控制结构
强化学习环境
精确数学模型
优化控制策略
马尔可夫模型
电力电子器件