离线偏好对齐方法、装置、设备和介质

正文

推荐专利

离线偏好对齐方法、装置、设备和介质

申请号：CN202510606187

申请日期：2025-05-12

公开号：CN120542513A

公开日期：2025-08-26

类型：发明专利

摘要

本申请提供一种离线偏好对齐方法、装置、设备和介质，涉及人工智能技术领域，尤其涉及强化学习技术领域。该方法包括：获取离线轨迹偏好数据，其中，所述离线轨迹偏好数据中包括多组轨迹对和对应的偏好标签；构建信息先验，依据所述信息先验确定每个轨迹对的置信度，其中，所述信息先验用于表征所述每个轨迹对的频率信息；采用最大后验目标，根据所述离线轨迹偏好数据和所述每个轨迹对的置信度更新奖励模型。本申请能够在模型学习过程中有效处理数据的不确定性，提高模型对稀缺或不平衡数据的适应能力。

技术关键词

轨迹对齐方法离线计算机执行指令条件风险价值强化学习技术数据频率可读存储介质人工智能技术推理方法对齐装置计算机程序产品处理器通信参数存储器标签模块

系统为您推荐了相关专利信息

一种基于IABC-ANN神经网络的测量机器人动力学参数辨识方法

关节力矩蜂群算法轨迹动力学参数辨识六关节机器人

一种基于全地形地面仿形地勘机器人的地貌测量方法及系统

测绘无人机巡检轨迹全站仪测量方法无人巡逻车

一种眼板三维重建与焊接坡口引导定位方法及装置

焊接机器人焊接坡口深度相机定位方法三维重建模型

车辆协同控制方法、电子设备、可读存储介质和程序产品

车辆协同控制方法交叉口时隙分配信息交通信号灯交通信号优化

一种基于激光雷达的无人机电力巡检自主飞行的避障方法、设备及存储介质

无人机电力巡检三维环境模型激光雷达动态障碍物物体分类模型

离线偏好对齐方法、装置、设备和介质

站点导航

APP 下载