摘要
本发明属于强化学习技术领域,涉及零样本离线逆向强化学习多智能体泛用协作方法。首先在多智能体任务中引入带有补充数据集的模仿学习,以解决在实践中遇到的专家数据集数量有限的问题;其次提出多智能体模仿学习分布校正估计的方法,考虑到补充数据集与专家数据集相比,补充数据集的质量、精度较差,因此在引入补充数据集后,先进行约束优化,确保优化解中变量之间的比例关系符合要求,使得优化解在面临微小扰动时仍能保持稳定,不易发生大的波动,同时密度比校正能够处理复杂的约束条件,使解在多变的环境中具有更强的适应性和鲁棒性;然后通过闭式解进行凸优化,对变化的参数也具有更好的稳定性,特别是在处理参数扰动时,能够保持较好的性能。
技术关键词
策略
协作方法
度量
校正
拉格朗日
强化学习技术
神经网络参数
数据
离线
密度
克隆方法
采样方法
定义
样本
代表
超参数
鲁棒性
体能
决策
系统为您推荐了相关专利信息
破碎锤
破碎作业
决策算法
深度学习算法
聚类算法
边界策略
电力监控系统
网络安全设备
网关设备
网络安全策略
逆变器并网系统
振荡抑制方法
附加阻尼控制
支路
宽频
饮食管理方法
代谢动力学模型
分层强化学习
饮食管理系统
神经网络参数