摘要
本发明公开了一种基于双向序列推理的多智能体强化学习系统,包括数据获取模块、序列推理模块和策略优化模块三部分。首先,在数据获取模块,设计面向BS I‑MARL的智能体状态空间、动作空间以及奖励函数;然后基于Transformer模型,在序列推理模块设计面向双向序列推理的编码器‑解码器模块,用于生成多智能体决策的动作序列;最后在策略优化模块设计面向BS I‑MARL的策略梯度优化方法,评估多智能体的动作选择。本发明系统融合双向推理机制以建模智能体之间的相互影响关系,充分挖掘决策序列中的上下文依赖信息,从而提升非平稳环境下的多智能体学习效率和策略最优性,可应用于多智能体决策任务中。
技术关键词
强化学习系统
数据获取模块
序列
策略
编码器
多层感知器
决策
智能体交互
智能体系统
解码器结构
生成框架
推理机制
解码结构
学习方法
注意力机制
定义
三维结构
系统为您推荐了相关专利信息
混合损失函数
神经网络训练方法
对比度
逻辑
误差加权
电缆保护层
温度预测模型
电缆线芯温度
阶段
序列