摘要
本发明公开了一种基于非专家策略强化学习引导的无人机视觉避障控制方法,本发明实现无人机从起始点到目标点的无碰撞自主飞行。在智能体的在线学习过程中,人工势场法通过模糊逻辑被转换为离散动作,在学习初期以非专家策略的形式引导智能体通过行为克隆优化竞争双重Q网络,随后逐步过渡到深度强化学习,自主探索环境并对彩色图像进行视觉编码以生成状态向量,依据奖励信号训练更为精确和鲁棒的竞争双重Q网络。训练好的神经网络模型根据实时获得的状态生成当前时间步下各个动作的Q值,无人机根据最大Q值执行相应的线速度,从而完成避障任务。该方法显著提升了无人机在部分可观测且障碍物密集环境中的自主避障能力。
技术关键词
避障控制方法
无人机视觉
人工势场法
隶属度函数
策略
障碍物
单目相机
模糊逻辑
彩色图像
模糊规则
模糊推理系统
Adam算法
更新网络参数
深度强化学习
随机梯度下降
计算机装置