摘要
本发明涉及水下协同搜索定位技术领域,更具体地说,涉及基于深度强化学习的水下协同搜索定位方法及其系统,包括:获取水下机器人的环境信息和目标信息;获取水下机器人的六自由度位姿信息;基于环境信息和目标信息,判断水下机器人是否在搜寻目标区域内;根据判断结果,确定水下机器人的当前状态;基于当前状态和预设的马尔可夫决策过程,生成决策结果;根据决策结果,输出水下机器人的下一步动作指令,通过创新的深度强化学习框架,有效解决了水下环境的不确定性和动态变化问题。该方法能够根据实时的环境信息和目标信息,动态调整搜索策略,实现更加智能和高效的决策,引入了基于蒙特卡洛采样的任务分配算法,提高了多机器人系统的协同效率。
技术关键词
水下机器人
深度强化学习
搜索定位方法
三维地图数据
六自由度位姿信息
搜索定位技术
深度确定性策略梯度
搜索定位系统
随机游走方法
决策控制模块
任务分配算法
蒙特卡洛
深度神经网络
机器人系统
生成动作
压缩算法
采样方法