离线强化学习中的双重轻微泛化方法、装置、设备及介质

AITNT
正文
推荐专利
离线强化学习中的双重轻微泛化方法、装置、设备及介质
申请号:CN202411475137
申请日期:2024-10-22
公开号:CN119476526A
公开日期:2025-02-18
类型:发明专利
摘要
本申请涉及离线强化学习技术领域,特别涉及一种离线强化学习中的双重轻微泛化方法、装置、设备及介质,其中,方法包括:基于轻微泛化策略,获取离线数据集邻近区域的目标动作;利用目标动作确定轻微泛化的最大值,并将轻微泛化的最大值与目标样本内最大值融合至贝尔曼目标中,以获得改进的贝尔曼目标;利用改进的贝尔曼目标调整离线强化学习中的值函数高估放大效应,以获得离线强化学习的双重轻微泛化结果。由此,解决了相关技术中无法利用神经网络的泛化能力,导致离线数据利用率低,降低了强化学习算法的性能的问题。
技术关键词
泛化方法 离线 样本 强化学习技术 强化学习算法 策略 处理器 计算机程序产品 控制模块 效应 数据 可读存储介质 存储器 控制单元 电子设备 框架
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号