摘要
本申请公开了一种人形机器人的交互动作决策优化方法和相关设备,方法包括:获取当前环境状态信息和目标任务信息,对得到的当前环境状态信息进行特征提取,得到对应的状态特征数据;对得到的目标任务信息进行编码,得到对应的目标编码向量,并根据状态特征数据和目标编码向量进行数据拼接,得到综合状态向量数据;然后通过预设经验回放池对训练好的优化决策模型进行参数优化,得到优化后的优化决策模型;将得到的综合状态向量数据输入优化后的优化决策模型进行处理,得到目标动作指令,并根据目标动作指令驱动人形机器人运动。本申请实施例能够提高决策准确率,提高决策效率。
技术关键词
环境状态信息
状态向量数据
人形机器人
编码向量
决策优化方法
关节特征
交互动作
机器人关节
参数
策略
指令
动作特征
编码算法
序列
网络
分层