模型优化方法、装置、电子设备和计算机可读存储介质

正文

推荐专利

申请号：CN202411483690

申请日期：2024-10-23

公开号：CN119647551A

公开日期：2025-03-18

类型：发明专利

摘要

本申请提供了一种模型优化方法、装置、电子设备和计算机可读存储介质，涉及强化学习技术领域，本申请提供的模型优化方法通过从智能体与环境以往交互所产生的历史策略经验中筛选出高质量的历史策略经验，然后利用高质量的历史策略经验和由总变差距离构建得到奖励函数优化智能体所采用的策略，不仅能够在强化学习中提高历史经验样本的利用率，并且还能够减少强化学习中智能体与环境交互所需的成本和时间，并且引入的奖励函数可以将策略差异作为负奖励，从而限制策略更新的幅度，有利于确保策略的稳定性。

技术关键词

模型优化方法可执行程序代码可读存储介质电子设备强化学习技术优化装置计算机策略更新存储器广义模块处理器样本

系统为您推荐了相关专利信息

一种抛放记录器北斗维护方法、系统、设备及介质

FPGA逻辑单元数据管理模块抛放记录器管理设备北斗模块

三维模型裁剪方法、装置、电子设备和存储介质

三维模型倾斜航空影像裁剪方法边缘轮廓非暂态计算机可读存储介质

一种用于隔离区办证的在线学习考核评估方法及系统

深度置信网络模型考核评估方法在线学习平台数据考核评估系统

一种计量与营销系统档案数据评估与同步方法、系统、设备及存储介质

营销系统同步方法关联规则挖掘算法计量系统数据同步

低空视角下的交通拥堵识别方法及其相关设备

交通拥堵识别方法图像像素路段交通道路拥堵行驶车辆

模型优化方法、装置、电子设备和计算机可读存储介质

站点导航

APP 下载