基于VI策略的off-policy输出反馈数据驱动Q学习的控制方法

AITNT
正文
推荐专利
基于VI策略的off-policy输出反馈数据驱动Q学习的控制方法
申请号:CN202410852522
申请日期:2024-06-28
公开号:CN118709559A
公开日期:2024-09-27
类型:发明专利
摘要
本发明公开了一种基于VI策略的off‑policy输出反馈数据驱动Q学习的控制方法、系统、设备及存储介质,所述方法包括:基于单相电压源UPS逆变器的离散时间系统模型,构建逆变器模型的状态空间表达式;基于逆变器模型的状态空间表达式,构建代数黎卡提方程;基于代数黎卡提方程,构建基于状态反馈的VI的off‑policy Q函数;根据基于off‑policy的状态反馈数据驱动Q学习VI算法,采用最小二乘法对off‑policy Q函数求解;通过状态重构引理,将基于状态反馈的VI的off‑policy Q函数推导出基于输出反馈的VI的off‑policy Q函数,以使基于输出反馈的VI的off‑policy Q函数的求解不依赖于系统状态变量的测量。本发明不仅能够准确地控制电力转换和切换操作,以提高系统的能源利用效率,还能够在面对不可测量的状态信息时保持稳定运行,从而提高系统的可靠性和鲁棒性。
技术关键词
状态空间方程 表达式 离散时间采样 信号系统 数据 策略 矩阵 信号发生器 执行存储器存储 逆变器状态 重构 因子 处理器 控制系统 学习算法 可读存储介质 终端设备
系统为您推荐了相关专利信息
1
图像分割方法、图像分割模型的训练方法及装置
图像分割模型 图像分割方法 对象 样本 随机梯度下降
2
一种基于信息熵-贝叶斯估计的自动驾驶决策系统
子模块 自动驾驶系统 信息熵 决策系统 策略
3
一种考虑多环频率耦合效应的新能源GCI非线性建模方法
非线性建模方法 频率耦合效应 非线性数学模型 电压 坐标系
4
一种基于钢结构施工状态的在线监测方法及系统
钢结构焊缝 在线监测系统 超声波检测设备 数据特征提取 模型训练模块
5
一种交易数据的模型构建方法、链路溯源方法及装置
模型构建方法 网络拓扑 溯源方法 实体 表达式
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号