一种结合离在线强化学习的策略训练优化方法及框架

正文

推荐专利

申请号：CN202510495595

申请日期：2025-04-21

公开号：CN120409738A

公开日期：2025-08-01

类型：发明专利

摘要

本发明公开了一种结合离在线强化学习的策略训练优化方法及框架，属于智能控制和强化学习技术领域；该方法中利用改进的离线强化学习算法通过离线数据进行策略训练，学习一个初始策略，并在在线环境中进行评估，当策略的成功率大于等于转换阈值时切换为在线强化学习训练；然后采用在线强化学习算法对初始策略进行实时优化，使策略在执行过程中不断调整。本发明融合了离线强化学习的数据高效利用能力与在线强化学习的实时优化能力，使策略在任务执行过程中能够动态调整，可以适应不同环境条件的变化，提升了策略在复杂任务中的适用性和鲁棒性，能够在更具挑战性的环境下学习到更优的决策策略，进而有助于确保任务执行的可靠性。

技术关键词

训练优化方法强化学习算法策略在线离线强化学习技术网络偏差数据分布框架处理器存储器鲁棒性电子设备指令决策校正模块

系统为您推荐了相关专利信息

基于多维尺度预决策与动态微调的智能化排程方法

排程方法决策定义计划工作辊

一种基于前车轨迹聚类预测的无人车辆主动避撞方法

车辆主动避撞方法行驶轨迹预测避撞策略聚类主动避撞系统

一种退火炉节能减排系统

节能减排系统相变特征点退火炉热处理多源异构数据

一种基于深度强化学习的连续体机械臂运动控制方法

深度强化学习强化学习策略连续体末端执行器融合多源信息

告警信息的处理方法、装置、设备、存储介质和程序产品

大语言模型告警关联分析计算机程序产品关系运维

一种结合离在线强化学习的策略训练优化方法及框架

站点导航

APP 下载