一种基于偏好传递性的人在回路强化学习数据增强方法

正文

推荐专利

申请号：CN202410971397

申请日期：2024-07-19

公开号：CN118916133A

公开日期：2024-11-08

类型：发明专利

摘要

本发明公开了一种基于偏好传递性的人在回路强化学习数据增强方法，其特点是该方法具体包括：每轮人类标注时从强化学习智能体动作序列库中采样动作序列；根据人类对动作序列对的偏好标注构建人类偏好依赖图；将人类偏好依赖图中的动作序列的均等偏好关系转换为动作序列对的偏序偏好关系等步骤。本发明与现有技术相比可以将人类反馈当中的均等偏好数据转化为偏序偏好数据，较好的解决了先前方法无法根据均等偏好数据优化的问题，同时利用人类偏好依赖图挖掘跨轮次间人类反馈结果之间的联系，能够加快算法的收敛速度，方法具有高度的通用性和模块化特点。

技术关键词

序列人类深度优先搜索结点关系回路数据算法速度

系统为您推荐了相关专利信息

知识结构化映射方法、装置及可读存储介质

文本句子语义距离映射方法超参数计算机可执行指令

一种低碳园区综合能源数据抓取方法及系统

数据抓取方法皮尔逊相关系数遗传算法优化蓄电池系统光伏系统

基于边云协同的电力物联网故障检测方法及系统

节点故障检测模型物联网故障检测协同优化控制故障定位算法

用于车用压铸模具加工的高效率自动化装夹方法

铸件表面特征点装夹方法金属零部件压铸模具

绿植生长的控制方法和系统

环境相对湿度除湿机插值模型中央控制系统负荷

一种基于偏好传递性的人在回路强化学习数据增强方法

站点导航

APP 下载