摘要
本申请涉及计算机科学技术领域,特别涉及一种基于动态势能奖励的机器人控制强化学习方法及装置,其中,方法包括:获取机器人的机器人信息和初始状态信息;基于机器人信息和初始状态信息,对机器人进行至少一轮的机器人控制交互,在每轮控制交互中,基于机器人的控制指令和状态信息,计算机器人的基于动态势能构造的密集奖励值;结合基于动态势能构造的密集奖励值和控制交互过程生成的训练数据训练机器人的初始控制策略神经网络,以得到最终控制策略神经网络。由此,解决了相关技术中,势能函数是固定的,导致整个训练过程中每个状态获得的奖励是确定的,进而限制了策略探索,无法对机器人进行复杂的控制等问题。
技术关键词
控制策略
强化学习方法
动态
机器人控制指令
机器人状态信息
参数
计算机科学技术
训练机器人
机器人躯干
序列
表达式
数据
速度
阶段
因子
偏差
系统为您推荐了相关专利信息
水库防洪监测系统
实时监测数据
量子陀螺仪
渗压传感器
坝体
无人车编队
围捕方法
斥力势场
通信网络
算法规划
智能问答方法
大语言模型
智能问答系统
计划
解题思路
法律知识图谱
报告生成系统
报告生成方法
数据收集模块
更新知识图谱
可视化仿真平台
直升机动力学
强化学习方法
训练智能体
飞行动力学模型