摘要
本发明公开一种基于上下文多臂机与深度强化学习的无线边缘缓存动态优化策略,属于人工智能与边缘计算交叉技术领域。本发明步骤:①智慧交通场景中从基站向主基站发送从基站缓存中已缓存内容的缓存状态索引集sk;②通过DRL,主基站能够根据当前k时期的缓存状态值sk和预期折现奖励函数Q(sk,ak;θk)决定将执行的行动ak,从而得到最优的缓存替换策略③从基站根据对已缓存内容集进行更新;④从基站用CMAB算法,提取并分析用户及缓存信息的特征信息,计算每个内容的预测奖励UCB。选择使UCB值最大的内容对应的请求队列进行组播。接收用户反馈的实际奖励后,更新模型参数,以动态调整组播内容。该方法确保用户获取最新内容,提高数据实时处理能力并避免提供陈旧数据。
技术关键词
基站
多臂机
缓存替换策略
边缘缓存网络
更新模型参数
动态
深度强化学习算法
更新系统
队列
索引
组播系统
深度Q网络
年龄
网络架构
度量
交通
系统为您推荐了相关专利信息
智能生成方法
装饰特征
多层感知机
中间层
生成包装
实体链接方法
实体链接模型
输出特征
损失函数优化
更新模型参数
数据生命周期管理
深度学习模型训练
业务关联信息
数据收集模块
特征工程