一种基于经验分位排序的离线强化学习策略优化方法及系统

正文

推荐专利

申请号：CN202511132664

申请日期：2025-08-13

公开号：CN120952094A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了一种基于经验分位排序的离线强化学习策略优化方法及系统，旨在解决传统方法中策略优化对Q值绝对数值依赖大、训练不稳定的问题。该方法引入排序函数替代Q函数作为策略监督信号，利用经验累积分布函数（ECDF）对目标Q值进行排序，生成归一化的分位标签，刻画动作的相对优势。通过构建排序网络并最小化其输出与排序标签的均方误差，实现对动作质量的排序监督学习。策略更新阶段结合排序得分与行为克隆损失，动态优化策略，缓解策略偏移问题。本方法关注Q值相对排序关系而非绝对值，提升了训练鲁棒性与泛化能力，在多个离线任务中表现优越，具有良好的工程应用前景。

技术关键词

强化学习策略累积分布函数 Sigmoid函数离线标签前馈神经网络鲁棒性策略更新样本数据网络结构误差算法周期性表达式信号参数机制

信道冲激响应多层感知器矩阵信道方法多头注意力机制

胃癌病灶分割模型的训练方法、装置、电子设备、存储介质及胃癌病灶分割方法

计算机断层扫描语义分割模型编码特征编码模块解码模块

一种学生体质健康数据风险评估方法及系统

数据风险评估方法二分类模型学校高斯核函数异常数据

多工位晶棒质检设备、系统及质检方法

质检设备质检装置晶棒转运装置投影测量仪缺陷标记装置

一种基金分析报告生成方法、装置及电子设备

基金分析报告生成方法可视化交互界面报告生成装置指标

一种基于经验分位排序的离线强化学习策略优化方法及系统

站点导航

APP 下载