摘要
本发明公开了一种基于离线强化学习的原型可解释飞行器控制方法,包括:获取目标飞行器的当前观测状态,将当前观测状态输入到训练后的飞行器控制模型中,输出当前观测状态对应的动作决策;其中,飞行器控制模型的训练步骤包括:从飞行器在不同环境条件下执行历史任务的离线数据集中,获取多条飞行器轨迹数据;从多条飞行器轨迹数据中,提取训练数据集;利用训练数据集优化飞行器控制模型的参数,获得训练后的飞行器控制模型。该方法通过从大量离线数据中学习,将复杂的参数设置问题转化为数据采样问题,大大简化了参数调整的复杂度;通过离线学习,显著提高样本效率,无需和环境进行交互,显著提高样本效率。
技术关键词
飞行器控制模型
飞行器控制方法
原型
优化飞行器
离线
数据
序列
轨迹
线性
语义特征提取
决策
参数
阶段
时序
样本
复杂度
框架
代表
系统为您推荐了相关专利信息
LDPC译码方法
校验矩阵
译码器
校验结构
编码
FPGA原型验证
RF接口
NFC芯片
输出缓冲器
电源转换模块
辐射传输模型
多角度遥感数据
分块
校正方法
核驱动模型
电流感应放大器
数据处理单元
人机交互单元
采样电阻
测试模块