摘要
本发明提供一种基于大语言模型和从人类反馈中强化学习的机器人多任务控制方法,包括通过LLM生成指令以引导机器人完成预定操作任务,利用收集的决策数据,并通过模仿学习IML对策略网络进行预训练;利用预训练的策略网络控制机器人执行任务;利用收集的决策数据B,通过从人类反馈中强化学习RLHF对策略网络进行微调后控制机器人完成多轮操作任务。本发明使用LLM生成决策数据,用于策略网络的预训练阶段,避免直接执行LLM输出的不确定性;利用LLM生成的数据进行模仿学习预训练,使策略网络具备基本的任务执行能力,从而在RLHF阶段具备良好初始化,显著减少无效探索,提高人类反馈的利用效率,降低训练时间与人力资源消耗。
技术关键词
多任务控制方法
大语言模型
动作策略
人类
决策
引导机器人
生成指令
网络控制
机器人运动学
收集机器人
数据
阶段
生成代码
仿真环境
控制策略
定义
参数