摘要
本发明公开了一种复杂场景的机器人智能体强化学习训练方法,其通过构建包含障碍物、动态目标以及环境约束等复杂场景、适用于多智能体系统的强化学习算法环境、状态转移模型,并采用强化学习算法构建为每个机器人智能体构建独立的神经网络;将智能体的给定状态、时序信息、历史状态信息的向量作为所述状态转移模型的输入,输出预测状态的状态转移概率和奖励信息;所述神经网络输出的动作策略和动作价值通过所述状态转移模型中执行并产生新的预测状态和奖励信息;通过调整神经网络的超参数,利用大规模分布式训练架构对所述决策网络和所述评估网络进行协作训练,实现多智能体的并行学习和协同决策,提高智能体在复杂场景中的性能表现和泛化能力。
技术关键词
强化学习算法
动作策略
构建状态转移模型
学习训练方法
障碍物
机器人本体
环境感知信息
决策
神经网络模型
场景
分布式训练
智能体系统
学习训练系统
梯度算法
分解算法
连续动作空间
多智能体协同
系统为您推荐了相关专利信息
路径跟踪控制方法
无人艇
网络模块
信息采集模块
强化学习算法
样本
学习方法
XGBoost模型
天然气
Siamese网络
数据分析技术
变分贝叶斯
深度强化学习算法
模块
人工智能算法
车辆刹车
提醒方法
周围环境数据
大数据
刹车提醒系统