摘要
本发明公开了一种基于偏好传递性的人在回路强化学习数据增强方法,其特点是该方法具体包括:每轮人类标注时从强化学习智能体动作序列库中采样动作序列;根据人类对动作序列对的偏好标注构建人类偏好依赖图;将人类偏好依赖图中的动作序列的均等偏好关系转换为动作序列对的偏序偏好关系等步骤。本发明与现有技术相比可以将人类反馈当中的均等偏好数据转化为偏序偏好数据,较好的解决了先前方法无法根据均等偏好数据优化的问题,同时利用人类偏好依赖图挖掘跨轮次间人类反馈结果之间的联系,能够加快算法的收敛速度,方法具有高度的通用性和模块化特点。
技术关键词
序列
人类
深度优先搜索
结点
关系
回路
数据
算法
速度
系统为您推荐了相关专利信息
文本
句子语义距离
映射方法
超参数
计算机可执行指令
数据抓取方法
皮尔逊相关系数
遗传算法优化
蓄电池系统
光伏系统
节点
故障检测模型
物联网故障检测
协同优化控制
故障定位算法
环境相对湿度
除湿机
插值模型
中央控制系统
负荷