摘要
本发明提出了一种基于技能驱动的人类偏好行为的应用方法及装置,方法包括:S10,基于无标注的智能体环境交互数据,通过无监督技能预训练进行技能学习,获得技能轨迹,并存入缓冲区;S20,通过查询选择机制在缓冲区中选择待标注技能轨迹对,并根据人类偏好进行人工标注;S30,基于人工标注的技能轨迹对训练强化学习模型,以获得用于对智能体进行控制的控制决策模型。本发明显著提升了智能体控制任务的查询可区分性,降低标注噪声;本发明增强了智能体控制的鲁棒性,降低对标注数据的依赖;而且,本发明兼容多种技能发现方法,扩展智能体控制领域的应用场景。
技术关键词
强化学习模型
轨迹
无监督
人类
扩展智能
模型训练模块
决策
机制
鲁棒性
数据
算法
噪声
场景
系统为您推荐了相关专利信息
车载充电器
性能测试方法
模式特征向量
指令
生成结构
智能网联汽车
流量识别模型
特征化模型
防护方法
车辆控制指令
新能源汽车能量
充电优化方法
废热回收系统
Kalman滤波算法
强化学习模型