摘要
一种基于多维人类反馈融合的人机强化学习方法,包括通过专家演示,基于策略生成器和鉴别器进行生成式对抗模仿学习,使得策略生成器学到的策略无法被鉴别器区分,得到演示奖励函数;利用用户的轨迹偏好,得到符合用户偏好的偏好奖励函数;融合演示奖励函数和偏好奖励函数,得到统一奖励函数,并通过动态奖励权重调整策略解决演示奖励函数与偏好奖励函数之间的冲突。本申请可以克服单一反馈所带来的限制以及多个反馈源之间存在的潜在冲突,增强了奖励函数的鲁棒性和连贯性。
技术关键词
强化学习方法
策略
人机
人类
强化学习算法
三元组
生成轨迹
动态更新
代表
定义
数据
基准
鲁棒性
指标
序列
度量
参数
决策
系统为您推荐了相关专利信息
感兴趣区域图像
磁共振
交替迭代优化
掩模
能量最小化框架
智能展架
雷达装置
数据处理方法
人机交互数据
麦克风装置
检测分析方法
多模态交互
虚拟化网络环境
分布式边缘
策略