摘要
本发明公开了一种基于增强动作空间的高效策略转移多机器人协同追踪方法及系统。针对现有方法在动态环境中策略迁移效率低、信用分配复杂及长决策链性能不足的问题,本方法通过将专家策略建模为时长可调的宏动作,并将其与原始动作空间融合形成增强动作空间,简化了学习过程。基于分层强化学习框架(HRL),引入宏动作间内学习规则(IMALR),在宏动作执行期间提取多训练样本以提升学习效率;设计内在奖励机制,鼓励智能体优先选择长时间有效的宏动作,增强策略复用;同时支持动态策略切换,允许在宏动作执行中根据环境变化中断并选择更优动作。该方法显著提升了多机器人在动态追踪任务中的协同效率,解决了传统方法在复杂环境下的避障、目标偏移及信用分配难题。
技术关键词
多机器人协同
分层强化学习
追踪方法
策略
深度Q网络
注意力机制
动态
动作融合
人工势场
追踪设备
追踪系统
决策
处理器
模块
时序
可读存储介质
存储器