摘要
本发明提供了一种基于大语言模型的多智能体控制系统,该系统包括仿真模拟子系统和协调控制子系统。仿真模拟子系统包括数据获取模块、初始奖励函数生成模块、纠错模块、密集奖励函数生成模块和策略网络更新模块,其中:数据获取模块用于获取多智能体强化学习训练代码;初始奖励函数生成模块用于生成初始奖励函数代码;纠错模块用于生成可执行奖励函数代码;密集奖励函数生成模块用于生成密集奖励函数代码;策略网络更新模块用于获取最大化奖励的策略网络。协调控制子系统包括数据收集模块和策略分发模块;其中:数据收集模块用于接收观测数据;策略分配模块用于基于观测数据采用最大化奖励的策略网络生成动作来指导多智能体执行控制任务。
技术关键词
多智能体强化学习
纠错模块
体控制系统
数据收集模块
数据获取模块
关节组件
多智能体控制方法
策略
大语言模型
子系统
生成指令
生成动作
分发模块
网络
生成可执行
场景
模型更新