机器人的策略模型训练方法、设备及存储介质

正文

推荐专利

申请号：CN202510394937

申请日期：2025-03-31

公开号：CN120297357B

公开日期：2025-10-28

类型：发明专利

摘要

本申请提供了一种机器人的策略模型训练方法、设备及存储介质，其中，该方法包括：在离线学习阶段，首先采集专家示范数据，让机器人基于专家示范数据进行模仿学习，得到初始策略模型以及离线数据池。进入在线学习阶段，机器人就可以在专家策略的基础上进行强化学习，根据人工介入信息确定当前时间步的训练数据，将训练数据加入在线数据池中，并根据离线数据池与在线数据池进行模型参数更新，在所有任务结束后，将得到的初始策略模型作为目标策略模型。本申请在机器人在线强化学习的过程中，还将模型自主探索和人工介入相结合，进一步提升机器人策略网络的鲁棒性，并实现了机器人策略从示范到自主的高效转变。

技术关键词

策略模型训练方法离线数据集合在线机器可读指令指示机器人处理器可读存储介质参数电子设备鲁棒性计算机阶段网络基础

机器人的策略模型训练方法、设备及存储介质

站点导航

APP 下载