一种基于多维人类反馈融合的人机强化学习方法

AITNT
正文
推荐专利
一种基于多维人类反馈融合的人机强化学习方法
申请号:CN202411023440
申请日期:2024-07-29
公开号:CN119005287A
公开日期:2024-11-22
类型:发明专利
摘要
一种基于多维人类反馈融合的人机强化学习方法,包括通过专家演示,基于策略生成器和鉴别器进行生成式对抗模仿学习,使得策略生成器学到的策略无法被鉴别器区分,得到演示奖励函数;利用用户的轨迹偏好,得到符合用户偏好的偏好奖励函数;融合演示奖励函数和偏好奖励函数,得到统一奖励函数,并通过动态奖励权重调整策略解决演示奖励函数与偏好奖励函数之间的冲突。本申请可以克服单一反馈所带来的限制以及多个反馈源之间存在的潜在冲突,增强了奖励函数的鲁棒性和连贯性。
技术关键词
强化学习方法 策略 人机 人类 强化学习算法 三元组 生成轨迹 动态更新 代表 定义 数据 基准 鲁棒性 指标 序列 度量 参数 决策
系统为您推荐了相关专利信息
1
一种基于乘性固有成分优化的磁共振图像非均匀性校正方法
感兴趣区域图像 磁共振 交替迭代优化 掩模 能量最小化框架
2
基于AI监督的储能设备状态在线运维监督方法及系统
储能设备 协调控制器 运维策略 储能系统 特征值
3
智能展架系统的数据处理方法、系统、设备及存储介质
智能展架 雷达装置 数据处理方法 人机交互数据 麦克风装置
4
新能源波动性的电网储能协同优化配置系统
优化配置系统 电网储能 温度控制检测 周期 模块
5
一种基于智慧互联网的网络攻击AI检测分析方法及系统
检测分析方法 多模态交互 虚拟化网络环境 分布式边缘 策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号