摘要
本发明涉及一种基于逆强化学习的机器人‑环境最优交互控制方法,首先建立机器人与环境的交互控制模型,利用线性表达式描述环境位置与期望轨迹;其次,建立基于状态空间的实际被控系统模型并给出基于模型的最优阻抗控制策略;然后,构建专家演示系统生成专家演示数据,设计了专家状态数据和专家输出反馈控制增益的估计算法;最后,设计了基于逆强化学习的机器人最优阻抗控制学习算法。本发明针对机器人与未知环境的交互控制任务场景,设计的方法仅利用专家演示数据即可学习最优的专家控制策略及未知的值函数,能够解决接触环境未知、环境位置未知、期望轨迹动力学未知、交互性能未指定的最优阻抗控制问题。
技术关键词
交互控制方法
控制策略
轨迹生成器
拟牛顿算法
状态重构方法
数据
估计算法
评估机器人
阻抗控制器
状态空间模型
交互性
表达式
演示系统
重构矩阵
增益误差
误差向量
学习算法
程序
系统为您推荐了相关专利信息
烘烤炉控制系统
热流密度传感器
模糊PID控制器
中控模块
传感模块
设备状态数据
工业空调
分布式空调系统
数据可视化平台
分布式智能
模糊PID控制器
GRU模型
温度控制策略
荔枝保鲜
建模方法
控制策略
人形机器人
力矩控制方法
地面反作用力
网络