摘要
本发明公开一种基于VPPO算法的无小区多输入输出环境的缓存优化方法,涉及边缘缓存优化技术领域。生成多个独立的环境实例且并行运行;基于多个独立的环境实例和价值网络对策略网络进行训练,得到训练完成的策略网络;将当前边缘服务器的缓存比例输入训练完成的策略网络,得到边缘服务器的缓存比例的调整。采用多环境并行交互模拟复杂动态场景,并行采集多场景数据,提升模型对动态变化的适应和决策能力。用Retrace优势估计适配非马尔可夫环境,通过截断权重和递归计算,处理状态转移依赖历史的情况,解决传统优势估计在这类场景的偏差问题,让优势函数计算更准,为策略优化打基础,提升模型在复杂依赖关系场景的性能。
技术关键词
缓存优化方法
策略
网络
服务器
小区
算法
缓存优化技术
延迟参数
智能设备
轨迹
处理器
生成智能
指令
动态场景
计算机程序产品
多环境
数据
多场景
系统为您推荐了相关专利信息
健康评估系统
健康评估方法
工业设备
数字孪生模型
样本
通信组件
智能化诊断方法
错误码
特征提取模型
存储设备
YOLO算法
网络结构
注意力
卷积模块
归一化方法