摘要
本公开涉及最优估计技术领域,包括一种数据驱动的非线性系统状态估计方法。通过获取系统状态在时刻t的历史信息和待训练的策略函数模型确定时刻t+1的历史信息;基于待训练的值函数模型,确定时刻t的历史信息对应的第一估计评价值、以及时刻t+1的历史信息对应的第二估计评价值;基于第一估计评价值、第二估计评价值、时刻t的当前估计值、以及时刻t的实际状态值,对待训练的值函数模型进行迭代训练;基于时刻t对应的训练后的值函数模型的稳态估计评价值,对待训练的策略函数模型进行迭代训练,得到时刻t对应的训练后的策略函数模型;基于训练后的策略函数模型确定系统状态的状态估计值;可以降低状态估计难度,提高状态估计准确性。
技术关键词
策略
强化学习算法
梯度下降法
稳态
非线性系统
状态转移模型
参数
处理器
误差
方程
存储器
数据
因子
指令
系统为您推荐了相关专利信息
土壤墒情传感器
优化布置方法
节点
传感器布设方法
遗传算法
策略生成方法
执行用户意图
文本
生成程序
策略生成装置