摘要
本发明公开了一种基于涌现混合专家模型的多任务强化学习方法,包括以下步骤:构建多任务强化学习网络,所述多任务强化学习网络包括若干个前馈神经网络,每个前馈神经网络前面连接一个路由网络;对每个前馈神经网络进行聚类分析,均分为若干个专家模块;基于策略梯度下降方法对每个路由网络进行训练,并更新对应专家模块的参数;选取多任务学习环境中的实验任务;对于每个实验任务,基于训练后的路由网络激活对应的专家模块进行解耦处理,完成多任务强化学习。本发明为多任务学习提供了高效稳定的优化策略,有效缓解了多任务学习中参数共享与任务之间相互干扰的难题。
技术关键词
前馈神经网络
强化学习网络
多任务
SAC算法
策略
样本
模块
数据中心
参数
批量数据
处理器
可读存储介质
存储器
机器人
电子设备
程序
聚类