摘要
本发明公开了一种基于VI策略的off‑policy输出反馈数据驱动Q学习的控制方法、系统、设备及存储介质,所述方法包括:基于单相电压源UPS逆变器的离散时间系统模型,构建逆变器模型的状态空间表达式;基于逆变器模型的状态空间表达式,构建代数黎卡提方程;基于代数黎卡提方程,构建基于状态反馈的VI的off‑policy Q函数;根据基于off‑policy的状态反馈数据驱动Q学习VI算法,采用最小二乘法对off‑policy Q函数求解;通过状态重构引理,将基于状态反馈的VI的off‑policy Q函数推导出基于输出反馈的VI的off‑policy Q函数,以使基于输出反馈的VI的off‑policy Q函数的求解不依赖于系统状态变量的测量。本发明不仅能够准确地控制电力转换和切换操作,以提高系统的能源利用效率,还能够在面对不可测量的状态信息时保持稳定运行,从而提高系统的可靠性和鲁棒性。
技术关键词
状态空间方程
表达式
离散时间采样
信号系统
数据
策略
矩阵
信号发生器
执行存储器存储
逆变器状态
重构
因子
处理器
控制系统
学习算法
可读存储介质
终端设备
系统为您推荐了相关专利信息
图像分割模型
图像分割方法
对象
样本
随机梯度下降
非线性建模方法
频率耦合效应
非线性数学模型
电压
坐标系
钢结构焊缝
在线监测系统
超声波检测设备
数据特征提取
模型训练模块