摘要
本发明提供一种基于深度强化学习的微纳机器人集群导航避障方法及系统,包括:通过多层级域随机化训练集群控制策略,使模型具备强大的虚拟到现实的迁移能力,利用视觉检测模块实时获取微纳机器人集群及环境内障碍物的位置信息,构建包含目标、集群自身及障碍物相对状态的观测向量,与历史信息输入集成时间扩展的因果自注意力机制的Transformer策略网络,以应对部分可观测环境下的长时序依赖问题。通过近端策略优化算法,输出驱动集群运动的速度控制指令,并将其映射为外部驱动磁场的物理参数,实现对集群的闭环控制。经仿真训练后,控制策略可直接迁移至物理系统,无需微调,实现精准、鲁棒的自主导航、动态避障、目标追踪等复杂任务。
技术关键词
导航避障方法
深度强化学习
深度学习服务器
集群
微纳机器人
策略
障碍物
线圈系统
闭环控制
系统执行指令
可编程直流电源
非暂态计算机可读存储介质
高速数据接口
仿真环境
专用放大器
旋转磁场
注意力机制
驱动器