摘要
本发明公开了一种基于内外奖励机制强化学习的多无人机目标围捕方法,涉及无人机控制技术领域。设计内外奖励机制,内外奖励机制包括外在奖励机制和内在奖励机制,外在奖励机制是根据环境依托无人机的个体行为给予的回馈信号构建的,用于增强无人机之间的协作;内在奖励机制是根据无人机状态的变化从自身行为中获得的反馈信号构建的,用于指导无人机自主探索环境和获取新知识;根据外在奖励机制和内在奖励机制,构建损失函数,并根据损失函数,训练策略模型;通过策略模型指导无人机的控制,以实现目标围捕。该方法创新性地设计一种内外奖励机制来提高策略模型在训练过程中的探索性和收敛性,从而使得该方法能够实现多无人机对目标的高效围捕。
技术关键词
环境状态信息
机制
围捕方法
多无人机协同
无人机控制技术
策略网络模型
连续性
静态障碍物
速度
能耗
误差
能量消耗
样本
信号
运动
系统为您推荐了相关专利信息
关键点检测方法
解码模块
注意力机制
多尺度特征融合
编码模块
预训练模型
线性变换矩阵
序列
编码模块
识别方法
网络构建方法
生物标记数据
节点
淋巴
生物标记特征
地址解析方法
语义
字符
XGBoost算法
矩阵