一种基于技能驱动的人类偏好行为的应用方法及装置

正文

推荐专利

申请号：CN202510871242

申请日期：2025-06-26

公开号：CN120781910A

公开日期：2025-10-14

类型：发明专利

摘要

本发明提出了一种基于技能驱动的人类偏好行为的应用方法及装置，方法包括：S10，基于无标注的智能体环境交互数据，通过无监督技能预训练进行技能学习，获得技能轨迹，并存入缓冲区；S20，通过查询选择机制在缓冲区中选择待标注技能轨迹对，并根据人类偏好进行人工标注；S30，基于人工标注的技能轨迹对训练强化学习模型，以获得用于对智能体进行控制的控制决策模型。本发明显著提升了智能体控制任务的查询可区分性，降低标注噪声；本发明增强了智能体控制的鲁棒性，降低对标注数据的依赖；而且，本发明兼容多种技能发现方法，扩展智能体控制领域的应用场景。

技术关键词

强化学习模型轨迹无监督人类扩展智能模型训练模块决策机制鲁棒性数据算法噪声场景

系统为您推荐了相关专利信息

一种车载充电器性能测试方法及系统

车载充电器性能测试方法模式特征向量指令生成结构

智能网联汽车的安全防护方法及装置

智能网联汽车流量识别模型特征化模型防护方法车辆控制指令

一种基于无信标的星间激光通信双向建链方法

激光通信系统建链方法电机驱动装置信标螺旋

一种基于元动作的少样本无线手势识别方法

谱图特征曲率特征手势识别方法多普勒轨迹

一种新能源汽车能量收集与充电优化系统及充电优化方法

新能源汽车能量充电优化方法废热回收系统 Kalman滤波算法强化学习模型

一种基于技能驱动的人类偏好行为的应用方法及装置

站点导航

APP 下载