摘要
本发明公开了一种基于强化学习的多约束飞行器航迹快速规划方法,通过建立飞行器航迹模型、状态空间和动作空间;设计飞行器航迹规划问题强化学习方法的奖励函数,将飞行器每次选择的动作后所带来的状态、动作、奖励作为经验保存在Q表中,用Q表记录状态‑动作对的选择概率;强化学习通过迭代训练来学习Q表,在每一个迭代过程中会探索不同的动作,并更新Q表并利用Q表中存储的经验来指导动作选择;飞行器在当前状态选择动作时是按照概率选择,根据ε‑贪婪算法以ε概率随机选择一个动作,以1‑ε的概率选择Q表中此状态最大值对应的动作;当飞行器选择动作后,根据结果来进行奖励或惩罚。
技术关键词
水平误差
飞行器航迹规划
强化学习方法
优化飞行器
贪婪算法
误差校正
坐标
终点
圆心
水平校正
校正误差
表达式
线段
直线
方程
系统为您推荐了相关专利信息
无线充电系统
磁感应强度
改进型粒子群算法
数学模型
发射线圈尺寸
物联控制系统
家居设备
家居系统
设备控制指令
历史故障数据
临床决策支持系统
医疗知识图谱
强化学习模型
电子病历系统
节点
稀土金属电解炉
柔顺控制方法
虚拟仿真环境
强化学习网络
机器人控制器
强化学习方法
策略
强化学习算法
蒙特卡洛方法
恢复方法