模型训练方法、策略生成方法、装置、电子设备及介质

正文

推荐专利

申请号：CN202411632742

申请日期：2024-11-15

公开号：CN119578499A

公开日期：2025-03-07

类型：发明专利

摘要

本申请实施例提供了一种模型训练方法、策略生成方法、装置、电子设备及介质，涉及数据处理技术领域，该方法包括：生成样本经验，其中样本经验包括：第一状态、经验动作、经验回报和第二状态。然后利用估计神经网络确定在第一状态下执行经验动作后的估计奖励值，以及从目标神经网络确定在第二状态下执行每种动作后得到的奖励值中筛选出最高奖励值。基于估计奖励值、最高奖励值和经验回报，确定损失函数值，并基于损失函数值更新估计神经网络的网络参数，返回生成样本经验的步骤，直至估计神经网络收敛时，将当前的估计神经网络作为策略生成模型。降低了移动通信系统中由边缘缓存策略造成的资源浪费。

技术关键词

缓存策略基站执行内容推荐编码终端策略生成方法模型训练方法样本策略生成装置模型训练装置模块通信接口电子设备移动通信系统可读存储介质链路数据处理技术存储器

模型训练方法、策略生成方法、装置、电子设备及介质

站点导航

APP 下载