摘要
公开了一种面向多任务的智能体训练方法和决策方法及装置,训练方法包括:将训练样本中初始任务状态输入混合编码器获取预估任务特征;将预估任务特征输入共享策略网络生成预估初步动作;将预估任务特征和预估初步动作输入动作校正策略网络生成预估校正动作;将预估初步动作和预估校正动作输入动作校正模块得到预估下一步动作;执行预估下一步动作获取预估下一任务状态;基于初始任务状态、预估下一任务状态和目标任务状态确定稀疏奖励和密集奖励;将预估下一任务状态作为初始任务状态并返回获取预估任务特征步骤,直至完成训练样本中任务;基于每个训练样本所有稀疏奖励、所有密集奖励,更新共享策略网络、动作校正策略网络和混合编码器的参数。
技术关键词
智能体训练方法
人形机器人
面向多任务
混合编码器
校正策略
校正模块
无人机
决策方法
网络
子模块
机械手
地点
无人车
训练样本集
物体
训练装置
指令
计算机程序产品
系统为您推荐了相关专利信息
技能训练方法
执行人形机器人
数字样机模型
数字仿真系统
行走模型
智能体训练方法
简化智能
参数
强化学习算法
无人机
关节电机
电机编码器
角速度信息
机器人视觉
人形机器人关节
机器人关节
减速器
齿圈
机器人主控系统
反馈系统
人形机器人
卡位机构
伺服电机
旋转执行器技术
顶出机构