摘要
本发明公开了一种融合GRU‑Attention与TD3‑SAC的机器人运动规划方法,旨在解决基于传统强化学习方法的运动规划在策略的多样性、稳定性和探索能力均衡性较弱的问题。具体来说,我们提出(1)在演员‑评论家网络中引入了门控循环单元(GRU)和注意力模块(Attention Module)以增强对时序特征的表示能力。(2)基于引入GRU‑Attention的Actor‑Critic网络,融合双延迟深度确定性策略梯度(TD3)与软演员‑评论家(SAC)算法,通过融合它们的促进探索机制,在保持训练稳定性和鲁棒性的同时,增强了机器人对复杂未知环境的探索能力。
技术关键词
门控循环单元
时序特征
注意力
强化学习方法
网络
机器人
鲁棒性
决策
序列
机制
算法
策略
元素
模块
规划
存储器
噪声
动态
系统为您推荐了相关专利信息
文本处理方法
命名实体识别模型
门控循环单元
文本分类模型
纠错
图片压缩技术
优化传输方法
图像压缩
数据发送模块
策略
气象灾害预测方法
气象站
卷积算法
历史气象数据
电力单元