摘要
本申请公开了强化学习模型训练方法、单层布料分离方法、装置、设备及介质,涉及计算机技术领域。包括:基于当前强化学习模型中的当前策略获取当前环境中的轨迹特征;当前策略为基于布料状态以及机械臂动作构建的策略,轨迹特征包括布料状态特征、机械臂动作特征以及与机械臂动作特征对应的初始奖励;向初始奖励添加用于加速学习过程的指导奖励,以得到当前总奖励;基于当前总奖励以及广义优势估计构建相应的优势函数,并基于优势函数以及KL散度惩罚系数生成目标函数;通过最大化目标函数的方式对当前强化学习模型中的当前策略的策略参数进行优化,以得到用于分离单层布料的目标强化学习模型。从而能够基于强化学习实现单层布料的分离。
技术关键词
强化学习模型
轨迹特征
机械臂
动作特征
单层
力反馈
特征提取网络
策略
数据获取模块
支路
线性
抓取布料
图像
多层布料
特征提取模块
广义