离线强化学习中的双重轻微泛化方法、装置、设备及介质

正文

推荐专利

申请号：CN202411475137

申请日期：2024-10-22

公开号：CN119476526A

公开日期：2025-02-18

类型：发明专利

摘要

本申请涉及离线强化学习技术领域，特别涉及一种离线强化学习中的双重轻微泛化方法、装置、设备及介质，其中，方法包括：基于轻微泛化策略，获取离线数据集邻近区域的目标动作；利用目标动作确定轻微泛化的最大值，并将轻微泛化的最大值与目标样本内最大值融合至贝尔曼目标中，以获得改进的贝尔曼目标；利用改进的贝尔曼目标调整离线强化学习中的值函数高估放大效应，以获得离线强化学习的双重轻微泛化结果。由此，解决了相关技术中无法利用神经网络的泛化能力，导致离线数据利用率低，降低了强化学习算法的性能的问题。

技术关键词

泛化方法离线样本强化学习技术强化学习算法策略处理器计算机程序产品控制模块效应数据可读存储介质存储器控制单元电子设备框架

离线强化学习中的双重轻微泛化方法、装置、设备及介质

站点导航

APP 下载