摘要
本发明提供一种基于强化学习的无人机任务卸载快速适应方法,涉及无人机飞行控制技术领域。本发明从具有不同状态环境中收集的离线经验中学习,在具有新状态动态的环境下执行在线策略适应,适用于在线互动代价较高的现实场景中,可以在离线经验数据的基础上实现泛化。本发明建立基于解耦策略和环境表示的强化学习模型和基于梯度上升的策略适应算法得到无人机性能最佳的策略下无人机的动作,从而使无人机和基站联合为地面终端设备产生的计算任务提供边缘计算服务。本发明只在在线适应测试环境中阶段需要无人机与当前环境进行少量在线互动,与其他主流方法需要大量的在线互动样本相比,能在实际环境中大大降低模型的训练成本。
技术关键词
策略
强化学习模型
终端设备
编码器
无人机飞行轨迹
解码器
基站
样本
无人机飞行控制技术
离线
地面
非线性神经网络
决策
蒙特卡洛方法
记录无人机
算法
在线
系统为您推荐了相关专利信息
智能体模型
整车热管理系统
仿真模型
决策
汽车部件
电力施工区域
安全监控系统
视频设备
穿戴设备
控制模块
细胞图像分类方法
超参数
算法
进化策略
分类准确率