摘要
一种基于任务解析的少样本多智能体强化学习泛化方法。包括:通过任务解析模型处理文本/图像输入:文本方案利用大语言模型生成结构化子任务分配及语义嵌入向量;图像方案通过多模态模型生成分配方案及图像特征向量;采用共享参数时序网络编码智能体轨迹,经降维聚合提取环境动态特征;将子任务特征表示、环境特征与观测状态拼接为联合特征向量;基于联合特征计算各智能体局部动作价值,通过超网络动态分配价值权重并加权融合,使用时序差分损失联合优化网络参数。该方法通过创新地引入任务目标解析与环境感知的深度耦合机制,在复杂多任务场景验证中实现显著性能提升,为多机器人协同、无人机集群等开放环境提供高效解决方案。
技术关键词
多智能体强化学习
泛化方法
图像特征向量
生成结构
大语言模型
流水线优化技术
超网络
语义
动态特征提取
知识蒸馏技术
动态权重分配
优化网络参数
时序
轨迹
云端
无人机集群
文本编码器