摘要
本发明涉及人工智能技术领域,可应用于医疗健康及金融科技等业务系统平台中,公开了一种基于元强化学习的多智能体协作方法,包括:根据获取的多源信息数据构建任务特征向量;根据任务特征向量计算新任务与训练任务的任务差异度;通过任务差异度构建元训练模型;根据采样任务对元训练模型进行双循环训练,得到最优元参数;将最优元参数作为新任务的初始参数,根据初始参数更新新任务与训练任务的任务差异度,根据更新后的任务差异度确定微调学习率,利用微调学习率对元训练模型进行微调处理;获取预设时间的环境数据,并将环境数据输入微调处理后的元训练模型中,得到动作分布概率,根据动作分布概率确定具体动作,并使多智能体执行具体动作。
技术关键词
协作方法
多源信息数据
协作程序
参数
双循环
协作装置
时序特征
长短期记忆网络
计算机设备
人工智能技术
生成动作
医疗健康
处理器
业务系统
模块
可读存储介质
存储器
策略