摘要
本发明提供一种基于分层强化学习的导弹制导方法,属于控制策略领域。步骤如下:首先,引入导弹‑目标运动学模型与导弹速度衰减模型;其次,在导弹‑目标运动学模型基础上设计过程奖励与结果奖励,得到总的奖励函数,引导导弹朝目标追击;再次,完成奖励函数设计后,在目标采取直线运动情况下使用柔性动作‑评价算法SAC对导弹进行初步训练,得到初始制导策略;最后,在初始制导策略的基础上敌机采取规避策略,使用柔性动作‑评价算法SAC继续对导弹进行训练,最终得到高质量制导策略。本发明能够使导弹在复杂战况中自主调整飞行路径,克服复杂环境中的干扰与挑战,从而大幅提高制导精度和攻击成功率,提升导弹打击效果与生存能力。
技术关键词
导弹制导方法
分层强化学习
制导策略
坐标系
评价算法
速度
追逃博弈
强化学习算法
数值解法
仿真环境
柔性
基础
状态更新
控制策略
表达式
定义
变量