摘要
本申请实施例提供了一种模型训练方法、策略生成方法、装置、电子设备及介质,涉及数据处理技术领域,该方法包括:生成样本经验,其中样本经验包括:第一状态、经验动作、经验回报和第二状态。然后利用估计神经网络确定在第一状态下执行经验动作后的估计奖励值,以及从目标神经网络确定在第二状态下执行每种动作后得到的奖励值中筛选出最高奖励值。基于估计奖励值、最高奖励值和经验回报,确定损失函数值,并基于损失函数值更新估计神经网络的网络参数,返回生成样本经验的步骤,直至估计神经网络收敛时,将当前的估计神经网络作为策略生成模型。降低了移动通信系统中由边缘缓存策略造成的资源浪费。
技术关键词
缓存策略
基站
执行内容推荐
编码
终端
策略生成方法
模型训练方法
样本
策略生成装置
模型训练装置
模块
通信接口
电子设备
移动通信系统
可读存储介质
链路
数据处理技术
存储器