摘要
本申请涉及一种基于增量强化学习的机器人安全训练方法、装置和设备。所述方法包括:采用历史数据对机器人的非线性系统中未知模型信息进行估计,基于线性增量系统构建增广增量系统,并且构建惩罚函数表征机器人完成任务的需求,根据第k步之后的惩罚函数,得到用于评估机器人性能的值函数;根据值函数,构建Q‑函数,利用预先构建的模型引导增量强化学习算法在线迭代求解Q‑函数,得到最优控制策略和最优误差估计策略,以及机器人模型,并利用在线学习到的机器人模型进行前向预测促进强化学习在线训练,基于在线学习到的机器人模型,构建二次型约束优化对机器人最优控制策略进行微调,以此实现在线安全学习。采用本方法能够实现机器人安全训练。
技术关键词
机器人模型
评估机器人
强化学习算法
在线
非线性系统
矩阵
估计误差
控制策略
表达式
训练装置
计算机设备
模块
存储器
处理器
障碍物
系统为您推荐了相关专利信息
多模态数据融合
疼痛评估系统
疼痛评估方法
健康监测数据
多尺度卷积神经网络
SOC估计方法
锂离子电池
鲸鱼优化算法
等效电路模型
Thevenin模型
动态电阻曲线
XGBoost算法
焊点
XGBoost模型
搜索算法
深度强化学习算法
客户
活动触发
列表
深度Q网络
气体在线监测
多层LSTM模型
预警方法
预警模型
气体检测传感器