零样本离线逆向强化学习多智能体泛用协作方法

正文

推荐专利

申请号：CN202510399483

申请日期：2025-04-01

公开号：CN120317315A

公开日期：2025-07-15

类型：发明专利

摘要

本发明属于强化学习技术领域，涉及零样本离线逆向强化学习多智能体泛用协作方法。首先在多智能体任务中引入带有补充数据集的模仿学习，以解决在实践中遇到的专家数据集数量有限的问题；其次提出多智能体模仿学习分布校正估计的方法，考虑到补充数据集与专家数据集相比，补充数据集的质量、精度较差，因此在引入补充数据集后，先进行约束优化，确保优化解中变量之间的比例关系符合要求，使得优化解在面临微小扰动时仍能保持稳定，不易发生大的波动，同时密度比校正能够处理复杂的约束条件，使解在多变的环境中具有更强的适应性和鲁棒性；然后通过闭式解进行凸优化，对变化的参数也具有更好的稳定性，特别是在处理参数扰动时，能够保持较好的性能。

技术关键词

策略协作方法度量校正拉格朗日强化学习技术神经网络参数数据离线密度克隆方法采样方法定义样本代表超参数鲁棒性体能决策

系统为您推荐了相关专利信息

基于AI的动态密码生成方法、装置、设备及存储介质

动态密码生成方法动态图形密码策略加密语义

应用于无人驾驶破碎车的破碎锤控制方法、装置及设备

破碎锤破碎作业决策算法深度学习算法聚类算法

一种电力监控系统网络安全设备安全边界策略统一管理体系

边界策略电力监控系统网络安全设备网关设备网络安全策略

基于阻抗协同重构的多逆变器并网系统宽频振荡抑制方法

逆变器并网系统振荡抑制方法附加阻尼控制支路宽频

一种儿童肥胖数字化饮食管理方法及系统

饮食管理方法代谢动力学模型分层强化学习饮食管理系统神经网络参数

零样本离线逆向强化学习多智能体泛用协作方法

站点导航

APP 下载