一种基于偏好传递性的人在回路强化学习数据增强方法

AITNT
正文
推荐专利
一种基于偏好传递性的人在回路强化学习数据增强方法
申请号:CN202410971397
申请日期:2024-07-19
公开号:CN118916133A
公开日期:2024-11-08
类型:发明专利
摘要
本发明公开了一种基于偏好传递性的人在回路强化学习数据增强方法,其特点是该方法具体包括:每轮人类标注时从强化学习智能体动作序列库中采样动作序列;根据人类对动作序列对的偏好标注构建人类偏好依赖图;将人类偏好依赖图中的动作序列的均等偏好关系转换为动作序列对的偏序偏好关系等步骤。本发明与现有技术相比可以将人类反馈当中的均等偏好数据转化为偏序偏好数据,较好的解决了先前方法无法根据均等偏好数据优化的问题,同时利用人类偏好依赖图挖掘跨轮次间人类反馈结果之间的联系,能够加快算法的收敛速度,方法具有高度的通用性和模块化特点。
技术关键词
序列 人类 深度优先搜索 结点 关系 回路 数据 算法 速度
系统为您推荐了相关专利信息
1
知识结构化映射方法、装置及可读存储介质
文本 句子语义距离 映射方法 超参数 计算机可执行指令
2
一种低碳园区综合能源数据抓取方法及系统
数据抓取方法 皮尔逊相关系数 遗传算法优化 蓄电池系统 光伏系统
3
基于边云协同的电力物联网故障检测方法及系统
节点 故障检测模型 物联网故障检测 协同优化控制 故障定位算法
4
用于车用压铸模具加工的高效率自动化装夹方法
铸件表面 特征点 装夹方法 金属零部件 压铸模具
5
绿植生长的控制方法和系统
环境相对湿度 除湿机 插值模型 中央控制系统 负荷
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号