一种基于价值分解差异的多主体对比探索方法

AITNT
正文
推荐专利
一种基于价值分解差异的多主体对比探索方法
申请号:CN202510144491
申请日期:2025-02-10
公开号:CN119990245A
公开日期:2025-05-13
类型:发明专利
摘要
本发明公开了一种基于价值分解差异的多智能体对比探索方法,该方法利用价值分解的差异和对比原则,根据不同的价值分解估计之间的差异确定更新权重,设置更新权重并将这种差异作为更新过程中的内在目标。MACE架构包含两个值函数估计器,每个值函数估计器都负责估计两种VD方法对应的联合状态动作值函数Qjt和Qtot,利用Qjt和Qtot之间的差异来创建一个隐式奖励函数和加权机制来指导探索,用于更新两个内部函数估计器。这种方法确保了Q值较高的动作优先进行采样,而Q值较小的动作仍然有机会进行采样,增强了探索行为,不仅在学习速度和最终性能上明显优于基线,而且有效保持了完整的表示能力。
技术关键词
全局状态信息 注意力机制 Attention机制 协作动作 采集周围环境 前馈神经网络 混合网络 网络部署 策略 模块 因子 编码 数据 基线 参数 决策 轨迹
系统为您推荐了相关专利信息
1
电力系统负荷的预测方法、装置、存储介质及电子设备
拓扑图 电气连接结构 节点特征 注意力神经网络 样本
2
用于动作规划的方法、装置、设备和存储介质
解码模型 融合特征 训练机器人 编码 动作规划方法
3
基于通道注意力和字形聚合的甲骨文去噪方法、装置及介质
去噪方法 去噪模型 纠正器 图像 字符
4
一种基于交叉自注意力与特征归纳的多模态融合方法
图像特征数据 融合方法 平衡特征 融合特征 交叉注意力机制
5
一种基于YOLOv9改进模型的激光焊点缺陷检测方法及系统
焊点缺陷检测方法 激光 通道注意力机制 焊点检测系统 焊点检测技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号