基于大语言模型和从人类反馈中强化学习的机器人多任务控制方法

正文

推荐专利

申请号：CN202510933379

申请日期：2025-07-08

公开号：CN120680513A

公开日期：2025-09-23

类型：发明专利

摘要

本发明提供一种基于大语言模型和从人类反馈中强化学习的机器人多任务控制方法，包括通过LLM生成指令以引导机器人完成预定操作任务，利用收集的决策数据，并通过模仿学习IML对策略网络进行预训练；利用预训练的策略网络控制机器人执行任务；利用收集的决策数据B，通过从人类反馈中强化学习RLHF对策略网络进行微调后控制机器人完成多轮操作任务。本发明使用LLM生成决策数据，用于策略网络的预训练阶段，避免直接执行LLM输出的不确定性；利用LLM生成的数据进行模仿学习预训练，使策略网络具备基本的任务执行能力，从而在RLHF阶段具备良好初始化，显著减少无效探索，提高人类反馈的利用效率，降低训练时间与人力资源消耗。

技术关键词

多任务控制方法大语言模型动作策略人类决策引导机器人生成指令网络控制机器人运动学收集机器人数据阶段生成代码仿真环境控制策略定义参数

基于大语言模型和从人类反馈中强化学习的机器人多任务控制方法

站点导航

APP 下载