融合认可反馈的机器人大模型对齐训练方法及装置

正文

推荐专利

申请号：CN202511114335

申请日期：2025-08-11

公开号：CN120862680A

公开日期：2025-10-31

类型：发明专利

摘要

本公开属于具身智能机器人技术领域，具体涉及融合认可反馈的机器人大模型对齐训练方法及装置。其中所述方法包括：采集机器人的历史运行数据，将所述数据输入预训练的机器人大模型，生成初始行为输出；通过人工标注对所述初始行为输出进行评分，构建人工评分数据集，基于所述人工评分数据集，通过监督学习训练机器奖励函数，其中所述机器奖励函数的输出值拟合人工评分的分值分布；将所述机器奖励函数的输出作为奖励信号，通过强化学习算法更新所述机器人大模型的参数，以优化机器人行为策略。本公开提供了一种与人类的目标与价值观对齐的机器人大模型训练方法。

技术关键词

历史运行数据强化学习算法神经网络模型训练系统智能机器人技术样本策略模型训练方法生成动作对齐模块训练装置超参数索引障碍物人类

融合认可反馈的机器人大模型对齐训练方法及装置

站点导航

APP 下载