一种基于技能驱动的人类偏好行为的应用方法及装置

AITNT
正文
推荐专利
一种基于技能驱动的人类偏好行为的应用方法及装置
申请号:CN202510871242
申请日期:2025-06-26
公开号:CN120781910A
公开日期:2025-10-14
类型:发明专利
摘要
本发明提出了一种基于技能驱动的人类偏好行为的应用方法及装置,方法包括:S10,基于无标注的智能体环境交互数据,通过无监督技能预训练进行技能学习,获得技能轨迹,并存入缓冲区;S20,通过查询选择机制在缓冲区中选择待标注技能轨迹对,并根据人类偏好进行人工标注;S30,基于人工标注的技能轨迹对训练强化学习模型,以获得用于对智能体进行控制的控制决策模型。本发明显著提升了智能体控制任务的查询可区分性,降低标注噪声;本发明增强了智能体控制的鲁棒性,降低对标注数据的依赖;而且,本发明兼容多种技能发现方法,扩展智能体控制领域的应用场景。
技术关键词
强化学习模型 轨迹 无监督 人类 扩展智能 模型训练模块 决策 机制 鲁棒性 数据 算法 噪声 场景
系统为您推荐了相关专利信息
1
一种车载充电器性能测试方法及系统
车载充电器 性能测试方法 模式特征向量 指令 生成结构
2
智能网联汽车的安全防护方法及装置
智能网联汽车 流量识别模型 特征化模型 防护方法 车辆控制指令
3
一种基于无信标的星间激光通信双向建链方法
激光通信系统 建链方法 电机驱动装置 信标 螺旋
4
一种基于元动作的少样本无线手势识别方法
谱图特征 曲率特征 手势识别方法 多普勒 轨迹
5
一种新能源汽车能量收集与充电优化系统及充电优化方法
新能源汽车能量 充电优化方法 废热回收系统 Kalman滤波算法 强化学习模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号