机器人的策略模型训练方法、设备及存储介质

AITNT
正文
推荐专利
机器人的策略模型训练方法、设备及存储介质
申请号:CN202510394937
申请日期:2025-03-31
公开号:CN120297357B
公开日期:2025-10-28
类型:发明专利
摘要
本申请提供了一种机器人的策略模型训练方法、设备及存储介质,其中,该方法包括:在离线学习阶段,首先采集专家示范数据,让机器人基于专家示范数据进行模仿学习,得到初始策略模型以及离线数据池。进入在线学习阶段,机器人就可以在专家策略的基础上进行强化学习,根据人工介入信息确定当前时间步的训练数据,将训练数据加入在线数据池中,并根据离线数据池与在线数据池进行模型参数更新,在所有任务结束后,将得到的初始策略模型作为目标策略模型。本申请在机器人在线强化学习的过程中,还将模型自主探索和人工介入相结合,进一步提升机器人策略网络的鲁棒性,并实现了机器人策略从示范到自主的高效转变。
技术关键词
策略 模型训练方法 离线数据集合 在线 机器可读指令 指示机器人 处理器 可读存储介质 参数 电子设备 鲁棒性 计算机 阶段 网络 基础
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号