摘要
本发明公开了一种在线多步启发式动态规划方法、介质及设备,属于非线性系统控制领域,包括:针对非线性仿射系统,开发了一种在线多步启发式动态规划方法。通过结合行动者批判网络和经验回放技术,提高了学习速度,并能够在不依赖可接受控制条件的前提下实现更高效的策略评估。为了增强学习过程中数据的多样性,提出了一种融入ER技术的执行评判神经网络结构,使得代理能够在更少的样本上进行有效探索,从而减少了对训练数据的依赖。最后,通过仿真结果验证了所提算法的优越性,实验表明,在相同条件下,ER‑MSHDP算法相比传统HDP算法具有更快的学习进程,且随着步长增大,学习时间呈指数级下降。
技术关键词
启发式动态规划
估计误差
神经网络结构
在线
非线性系统控制
近似误差
函数获取方法
定义
动态规划方法
控制策略
重放技术
回放技术
处理器
梯度下降法
稳定系统
迭代方法
更新系统
系统为您推荐了相关专利信息
动态知识图谱
指令
更新知识图谱
样本
损失函数优化
在线检测方法
相场模型
密封件
条形码
压力传感器阵列
非物质文化遗产
数字化保护系统
子模块
手工艺品
民间艺术