摘要
本发明一种基于优势函数引导注意力机制的机器人运动控制方法及系统,该方法步骤包括:S1.从离线数据集中提取多条历史运动轨迹数据构成训练数据集,输入至转换器中进行训练;S2.根据生成的动作集合以及状态集合构建双状态动作值网络与价值网络,通过迭代优化状态动作价值估计生成状态动作值估计,学习得到状态动作值函数和值函数,计算轨迹的优势函数;S3.根据优势函数对每条轨迹的初始动作计算优势值,根据优势值引导训练过程中屏蔽优势值低的轨迹数据;S4.控制转换器采样优势值最大的动作,以生成具有高优势值的机器人运动控制策略。本发明能够在复杂环境下实现快速、精准的机器人运动控制,提升策略生成的泛化能力和适应性。
技术关键词
注意力机制
运动轨迹数据
转换器
网络
控制策略
机器人运动控制
离线
生成机器人
存储计算机程序
序列
表达式
处理器
可读存储介质