摘要
本公开属于具身智能机器人技术领域,具体涉及融合认可反馈的机器人大模型对齐训练方法及装置。其中所述方法包括:采集机器人的历史运行数据,将所述数据输入预训练的机器人大模型,生成初始行为输出;通过人工标注对所述初始行为输出进行评分,构建人工评分数据集,基于所述人工评分数据集,通过监督学习训练机器奖励函数,其中所述机器奖励函数的输出值拟合人工评分的分值分布;将所述机器奖励函数的输出作为奖励信号,通过强化学习算法更新所述机器人大模型的参数,以优化机器人行为策略。本公开提供了一种与人类的目标与价值观对齐的机器人大模型训练方法。
技术关键词
历史运行数据
强化学习算法
神经网络模型
训练系统
智能机器人技术
样本
策略
模型训练方法
生成动作
对齐模块
训练装置
超参数
索引
障碍物
人类