基于奖励一致性模型的飞行器控制策略的离线训练方法

正文

推荐专利

申请号：CN202510269066

申请日期：2025-03-07

公开号：CN120143866A

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开一种基于奖励一致性模型的飞行器控制策略的离线训练方法和系统，提供了一种从离线飞行数据中学习飞行器控制策略的方案，使得在无需真实环境交互的情况下，仍能获得高质量的控制策略。该方法主要包括数据收集、模型训练、策略生成与优化等多个阶段，以确保最终训练出的策略具有较强的泛化能力和稳定性。本发明可以只通过一批离线数据，在零试错的情况下高效的获得灵活机动，高效决策的能力。本发明可应用于包括无人固定翼，有人固定翼，无人四旋翼等飞行器在内的各种飞行装置，具有广泛的应用前景。

技术关键词

飞机模型离线训练方法控制策略数据策略更新飞行器动力学学习优化方法无人固定翼模拟飞行器计算机设备飞行装置梯度下降法神经网络模型训练系统计数器模块

基于奖励一致性模型的飞行器控制策略的离线训练方法

站点导航

APP 下载