摘要
本申请提供一种离线偏好对齐方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及强化学习技术领域。该方法包括:获取离线轨迹偏好数据,其中,所述离线轨迹偏好数据中包括多组轨迹对和对应的偏好标签;构建信息先验,依据所述信息先验确定每个轨迹对的置信度,其中,所述信息先验用于表征所述每个轨迹对的频率信息;采用最大后验目标,根据所述离线轨迹偏好数据和所述每个轨迹对的置信度更新奖励模型。本申请能够在模型学习过程中有效处理数据的不确定性,提高模型对稀缺或不平衡数据的适应能力。
技术关键词
轨迹
对齐方法
离线
计算机执行指令
条件风险价值
强化学习技术
数据
频率
可读存储介质
人工智能技术
推理方法
对齐装置
计算机程序产品
处理器通信
参数
存储器
标签
模块
系统为您推荐了相关专利信息
关节力矩
蜂群算法
轨迹
动力学参数辨识
六关节机器人
测绘无人机
巡检轨迹
全站仪
测量方法
无人巡逻车
焊接机器人
焊接坡口
深度相机
定位方法
三维重建模型
车辆协同控制方法
交叉口
时隙分配信息
交通信号灯
交通信号优化
无人机电力巡检
三维环境模型
激光雷达
动态障碍物
物体分类模型