摘要
针对信任域多智能体强化学习算法的智能体排序方法,涉及强化学习技术领域。为解决现有技术中存在的,无法根据智能体观测相似性与信息丰富度合理安排训练顺序,导致训练稳定性和协同性不足的缺陷本发明提供的技术方案为:针对信任域多智能体强化学习算法的智能体排序方法,包括:采集各个智能体的观测信息的步骤;计算智能体之间的观测相似度的步骤;根据所述相似度进行排序,生成智能体训练序列的步骤;所述排序包括:优先选择观测相似度低的智能体,结合中心化机制进行聚类优化,用以确定最终排序顺序。适用于需要提升多智能体强化学习训练稳定性与协作性能的复杂任务决策系统中。
技术关键词
体排序方法
强化学习算法
生成智能
多智能体强化学习
计算机储存介质
强化学习技术
聚类
排序装置
决策系统
计算机程序产品
序列
处理器
模块
矩阵
周期
数据
系统为您推荐了相关专利信息
智能电网
数据生成方法
时序
数据生成模型
生成对抗网络
机场智能化操作系统
多模态数据采集
服务等级协议
时间卷积网络
异构传感器网络
智能故障预警系统
电梯门刀
传感器监测
动态阀值
红外检测传感器