摘要
本申请提供一种缓存决策模型训练方法、装置、设备、介质及程序产品,涉及量子技术领域,包括:根据缓存决策模型状态空间、动作空间、奖励函数,通过量子搜索算法,以强化学习算法贝尔曼方程迭代计算每个历史请求状态下,每个缓存动作对应的累积奖励值,直到缓存决策模型收敛,其中在当前迭代回合中执行第一历史请求状态下的一个目标缓存动作的情况下:若当前迭代回合目标缓存动作对应的累积奖励值大于或等于上一迭代回合第一历史请求状态下所有的缓存动作对应的最大累积奖励值,则通过量子操作提高选择目标缓存动作的概率。本申请的方法利用量子搜索算法,提高后续选择好动作的概率以加快强化学习算法的收敛速度,降低缓存决策模型的训练时间。
技术关键词
决策模型训练方法
缓存决策方法
强化学习算法
时延
基站
数据
计算机执行指令
搜索算法
周期
量子纠缠态
方程
模型训练装置
可读存储介质
计算机程序产品
处理器通信
存储器
电子设备
系统为您推荐了相关专利信息
消费管理方法
账户
IC卡
消费管理系统
认证机制
空口加密方法
专网
加密传输机制
组网
双向认证机制
5G基站
关键环境参数
基站机柜
防水系统
环境监测模块
多模态信息
无人机
波束成形
神经网络模型
特征选择
移动基站
数据仿真方法
信号载干比
仿真模型
采样点