摘要
本发明涉及安全强化学习技术领域,公开了一种基于深度Koopman的机器人强化学习安全控制器在线更新方法,包括:在仿真中采集随机输入控制的轨迹状态,训练深度Koopman神经网络,得到对应提升函数及演化矩阵;采用本征正交分解方法对该模型进行降维处理,获得投影矩阵及新的名义模型;在实机中进行强化学习策略迁移,交互中根据名义模型和当前观测状态得到观测误差,训练在线更新网络,得到残差矩阵;将名义模型与残差模型结合作为模型预测控制的模型约束,得到安全控制输入。本发明可以在线更新安全控制器,提升强化学习安全保障性能,适用于强化学习策略从仿真迁移到实机过程中存在模型差异、物理世界中存在扰动的动态环境等复杂情景。
技术关键词
在线更新方法
强化学习策略
线性
控制器
残差矩阵
预测误差
损失函数优化
方程
重构误差
仿真环境
生成机器人
深度神经网络
观测误差
强化学习技术
序列
系统为您推荐了相关专利信息
智能控制方法
多源数据采集系统
加权最小二乘法
数据融合算法
机器学习模型
机器人触觉传感器
模拟多路复用器
触觉传感单元
数据采集模块
通信单元
图像分类模型
CT图像数据
医学图像分类技术
标签
特征值