一种基于经验分位排序的离线强化学习策略优化方法及系统

AITNT
正文
推荐专利
一种基于经验分位排序的离线强化学习策略优化方法及系统
申请号:CN202511132664
申请日期:2025-08-13
公开号:CN120952094A
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了一种基于经验分位排序的离线强化学习策略优化方法及系统,旨在解决传统方法中策略优化对Q值绝对数值依赖大、训练不稳定的问题。该方法引入排序函数替代Q函数作为策略监督信号,利用经验累积分布函数(ECDF)对目标Q值进行排序,生成归一化的分位标签,刻画动作的相对优势。通过构建排序网络并最小化其输出与排序标签的均方误差,实现对动作质量的排序监督学习。策略更新阶段结合排序得分与行为克隆损失,动态优化策略,缓解策略偏移问题。本方法关注Q值相对排序关系而非绝对值,提升了训练鲁棒性与泛化能力,在多个离线任务中表现优越,具有良好的工程应用前景。
技术关键词
强化学习策略 累积分布函数 Sigmoid函数 离线 标签 前馈神经网络 鲁棒性 策略更新 样本 数据 网络结构 误差 算法 周期性 表达式 信号 参数 机制
系统为您推荐了相关专利信息
1
一种基于Vision Transformer网络实现RIS自适应重构多用户信道方法
信道冲激响应 多层感知器 矩阵 信道方法 多头注意力机制
2
胃癌病灶分割模型的训练方法、装置、电子设备、存储介质及胃癌病灶分割方法
计算机断层扫描 语义分割模型 编码特征 编码模块 解码模块
3
一种学生体质健康数据风险评估方法及系统
数据风险评估方法 二分类模型 学校 高斯核函数 异常数据
4
多工位晶棒质检设备、系统及质检方法
质检设备 质检装置 晶棒转运装置 投影测量仪 缺陷标记装置
5
一种基金分析报告生成方法、装置及电子设备
基金 分析报告生成方法 可视化交互界面 报告生成装置 指标
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号