摘要
本发明公开一种人类偏好辅助的飞行员行为模仿方法和系统,利用非完美飞行员演示和有限的人类偏好进行高效的无人机控制策略学习,所述非完美飞行员演示是指由人类飞行员无人机控制场景中采样的轨迹集合;所述无人机控制场景建模为一个马尔科夫决策过程;所述轨迹为某种方法在环境中连续采样多个时间步构成的状态动作对的集合;所述人类偏好为人类对于两条轨迹的偏好,即比较两条轨迹并给出某条轨迹由于另一条轨迹的结果;所述策略为在环境中采样的某种方法;本发明学到的策略性能可以突非完美演示的性能瓶颈。本发明可以应用于无人机飞行控制技术领域,具有广泛的应用前景。
技术关键词
神经网络参数
轨迹
人类
SAC算法
无人机
梯度下降法
数据更新
超参数
计数器
控制策略
计算机设备
可读存储介质
场景
采样模块
处理器
决策
系统为您推荐了相关专利信息
优化控制方法
约束控制器
风电机组
网络
风电场有功功率
土壤深松耕作
农机设备
土壤成分传感器
数据传输模块
机器学习算法
无人水下航行
径向基函数神经网络
轨迹控制方法
轨迹控制系统
水流
数据管理系统
场景识别分析
资源共享
人工智能识别
AR虚拟技术
行驶稳定性控制
速度跟踪控制器
间距控制器
队列
状态空间方程