基于动态势能奖励的机器人控制强化学习方法及装置

正文

推荐专利

申请号：CN202411822006

申请日期：2024-12-11

公开号：CN119748437A

公开日期：2025-04-04

类型：发明专利

摘要

本申请涉及计算机科学技术领域，特别涉及一种基于动态势能奖励的机器人控制强化学习方法及装置，其中，方法包括：获取机器人的机器人信息和初始状态信息；基于机器人信息和初始状态信息，对机器人进行至少一轮的机器人控制交互，在每轮控制交互中，基于机器人的控制指令和状态信息，计算机器人的基于动态势能构造的密集奖励值；结合基于动态势能构造的密集奖励值和控制交互过程生成的训练数据训练机器人的初始控制策略神经网络，以得到最终控制策略神经网络。由此，解决了相关技术中，势能函数是固定的，导致整个训练过程中每个状态获得的奖励是确定的，进而限制了策略探索，无法对机器人进行复杂的控制等问题。

技术关键词

控制策略强化学习方法动态机器人控制指令机器人状态信息参数计算机科学技术训练机器人机器人躯干序列表达式数据速度阶段因子偏差

系统为您推荐了相关专利信息

一种蠕虫式机器人的运动控制方法

运动控制方法坐标系蠕虫机器人动态数学模型模拟自然界

一种具有情感调节功能的智能机器人

智能机器人情感识别技术诊断模块识别模块物联网设备监控

一种激光扫描式烟丝填充值检测优化系统及方法

烟丝填充值控制点激光束形态三维重构算法

像素电路、图像传感器、摄像模组、设备及图像生成方法

感光元件像素单元像素电路模数转换器图像生成方法

一种信息提取方法及存储介质

信息提取方法多模态数据表格可读存储介质

基于动态势能奖励的机器人控制强化学习方法及装置

站点导航

APP 下载