摘要
本发明公开一种基于通用规划器与强化学习的多任务操控方法,采集单任务场景的轨迹数据,并通过优先级轨迹回放选择高优先级样本;利用选定样本,最小化相邻状态差异来训练通用规划器,期望获取两个状态及一个动作作为确定条件下的可达性信息,即所需要的步数距离;通过将规划器输出的步数距离最小化作为目标来训练动作网络以获取两状态间的最优动作,再结合到强化学习策略网络中对其进行指导,以优化动作选择,并逐步减少指导,最后通过共享多任务样本强化学习得到的策略网络,在多任务环境中实现高效学习。采用本发明方法,能够有效应对不同任务之间的策略冲突,提升策略的稳定性与泛化能力,实现多任务环境中的高效操控。
技术关键词
强化学习策略
操控方法
多任务
规划
网络
轨迹
样本
SAC算法
最小化误差
表达式
场景
多层感知机
因子
决策
批量
代表
广义
度量
效应
系统为您推荐了相关专利信息
隔离开关
智能监测方法
应力
影像捕捉设备
空间分布特征
智慧井盖
监测系统
检测井盖
神经网络模型构建
标记
触摸板表面
伸缩机构
多用户交互方法
控制模块
通信模块