摘要
本发明涉及基于平均奖励强化学习的机械臂装配方法及系统。其中的方法包括:采集装配任务执行过程中的当前状态信息,并通过基于扩散模型的模仿学习策略生成动作分块序列;以所述当前状态信息和所述动作分块序列作为输入,采用基于APO算法的残差强化学习策略,对所述动作分块序列进行实时微调,以生成机械臂实际执行动作;通过闭环控制,实时反馈和调整,以使机械臂完成长视距的复杂装配任务。本发明可提升长视距复杂装配任务的完成率和效率。
技术关键词
强化学习策略
机械臂
序列
计算机装置
生成动作
噪声
闭环控制
分块技术
矩阵
可读存储介质
算法
装配系统
误差
轨迹
元素
参数
数据
时序
网络
系统为您推荐了相关专利信息
液压胀管器
支撑框架
红外距离传感器
机器人
液压控制箱
水稻抗倒伏基因
染色体
标记
植物分子育种技术
位点
融合机器视觉
检测分类系统
涤纶丝
光电传感器阵列
流分类器