零样本离线逆向强化学习多智能体泛用协作方法

AITNT
正文
推荐专利
零样本离线逆向强化学习多智能体泛用协作方法
申请号:CN202510399483
申请日期:2025-04-01
公开号:CN120317315A
公开日期:2025-07-15
类型:发明专利
摘要
本发明属于强化学习技术领域,涉及零样本离线逆向强化学习多智能体泛用协作方法。首先在多智能体任务中引入带有补充数据集的模仿学习,以解决在实践中遇到的专家数据集数量有限的问题;其次提出多智能体模仿学习分布校正估计的方法,考虑到补充数据集与专家数据集相比,补充数据集的质量、精度较差,因此在引入补充数据集后,先进行约束优化,确保优化解中变量之间的比例关系符合要求,使得优化解在面临微小扰动时仍能保持稳定,不易发生大的波动,同时密度比校正能够处理复杂的约束条件,使解在多变的环境中具有更强的适应性和鲁棒性;然后通过闭式解进行凸优化,对变化的参数也具有更好的稳定性,特别是在处理参数扰动时,能够保持较好的性能。
技术关键词
策略 协作方法 度量 校正 拉格朗日 强化学习技术 神经网络参数 数据 离线 密度 克隆方法 采样方法 定义 样本 代表 超参数 鲁棒性 体能 决策
系统为您推荐了相关专利信息
1
基于AI的动态密码生成方法、装置、设备及存储介质
动态密码生成方法 动态图形密码 策略 加密 语义
2
应用于无人驾驶破碎车的破碎锤控制方法、装置及设备
破碎锤 破碎作业 决策算法 深度学习算法 聚类算法
3
一种电力监控系统网络安全设备安全边界策略统一管理体系
边界策略 电力监控系统 网络安全设备 网关设备 网络安全策略
4
基于阻抗协同重构的多逆变器并网系统宽频振荡抑制方法
逆变器并网系统 振荡抑制方法 附加阻尼控制 支路 宽频
5
一种儿童肥胖数字化饮食管理方法及系统
饮食管理方法 代谢动力学模型 分层强化学习 饮食管理系统 神经网络参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号