基于VI策略的off-policy输出反馈数据驱动Q学习的控制方法

正文

推荐专利

申请号：CN202410852522

申请日期：2024-06-28

公开号：CN118709559A

公开日期：2024-09-27

类型：发明专利

摘要

本发明公开了一种基于VI策略的off‑policy输出反馈数据驱动Q学习的控制方法、系统、设备及存储介质，所述方法包括：基于单相电压源UPS逆变器的离散时间系统模型，构建逆变器模型的状态空间表达式；基于逆变器模型的状态空间表达式，构建代数黎卡提方程；基于代数黎卡提方程，构建基于状态反馈的VI的off‑policy Q函数；根据基于off‑policy的状态反馈数据驱动Q学习VI算法，采用最小二乘法对off‑policy Q函数求解；通过状态重构引理，将基于状态反馈的VI的off‑policy Q函数推导出基于输出反馈的VI的off‑policy Q函数，以使基于输出反馈的VI的off‑policy Q函数的求解不依赖于系统状态变量的测量。本发明不仅能够准确地控制电力转换和切换操作，以提高系统的能源利用效率，还能够在面对不可测量的状态信息时保持稳定运行，从而提高系统的可靠性和鲁棒性。

技术关键词

状态空间方程表达式离散时间采样信号系统数据策略矩阵信号发生器执行存储器存储逆变器状态重构因子处理器控制系统学习算法可读存储介质终端设备

系统为您推荐了相关专利信息

图像分割方法、图像分割模型的训练方法及装置

图像分割模型图像分割方法对象样本随机梯度下降

一种基于信息熵-贝叶斯估计的自动驾驶决策系统

子模块自动驾驶系统信息熵决策系统策略

一种考虑多环频率耦合效应的新能源GCI非线性建模方法

非线性建模方法频率耦合效应非线性数学模型电压坐标系

一种基于钢结构施工状态的在线监测方法及系统

钢结构焊缝在线监测系统超声波检测设备数据特征提取模型训练模块

一种交易数据的模型构建方法、链路溯源方法及装置

模型构建方法网络拓扑溯源方法实体表达式

基于VI策略的off-policy输出反馈数据驱动Q学习的控制方法

站点导航

APP 下载