摘要
本发明公开一种基于奖励一致性模型的飞行器控制策略的离线训练方法和系统,提供了一种从离线飞行数据中学习飞行器控制策略的方案,使得在无需真实环境交互的情况下,仍能获得高质量的控制策略。该方法主要包括数据收集、模型训练、策略生成与优化等多个阶段,以确保最终训练出的策略具有较强的泛化能力和稳定性。本发明可以只通过一批离线数据,在零试错的情况下高效的获得灵活机动,高效决策的能力。本发明可应用于包括无人固定翼,有人固定翼,无人四旋翼等飞行器在内的各种飞行装置,具有广泛的应用前景。
技术关键词
飞机模型
离线训练方法
控制策略
数据
策略更新
飞行器动力学
学习优化方法
无人固定翼
模拟飞行器
计算机设备
飞行装置
梯度下降法
神经网络模型
训练系统
计数器
模块