一种基于多维人类反馈融合的人机强化学习方法

正文

推荐专利

申请号：CN202411023440

申请日期：2024-07-29

公开号：CN119005287A

公开日期：2024-11-22

类型：发明专利

摘要

一种基于多维人类反馈融合的人机强化学习方法，包括通过专家演示，基于策略生成器和鉴别器进行生成式对抗模仿学习，使得策略生成器学到的策略无法被鉴别器区分，得到演示奖励函数；利用用户的轨迹偏好，得到符合用户偏好的偏好奖励函数；融合演示奖励函数和偏好奖励函数，得到统一奖励函数，并通过动态奖励权重调整策略解决演示奖励函数与偏好奖励函数之间的冲突。本申请可以克服单一反馈所带来的限制以及多个反馈源之间存在的潜在冲突，增强了奖励函数的鲁棒性和连贯性。

技术关键词

强化学习方法策略人机人类强化学习算法三元组生成轨迹动态更新代表定义数据基准鲁棒性指标序列度量参数决策

系统为您推荐了相关专利信息

一种基于乘性固有成分优化的磁共振图像非均匀性校正方法

感兴趣区域图像磁共振交替迭代优化掩模能量最小化框架

基于AI监督的储能设备状态在线运维监督方法及系统

储能设备协调控制器运维策略储能系统特征值

智能展架系统的数据处理方法、系统、设备及存储介质

智能展架雷达装置数据处理方法人机交互数据麦克风装置

新能源波动性的电网储能协同优化配置系统

优化配置系统电网储能温度控制检测周期模块

一种基于智慧互联网的网络攻击AI检测分析方法及系统

检测分析方法多模态交互虚拟化网络环境分布式边缘策略

一种基于多维人类反馈融合的人机强化学习方法

站点导航

APP 下载