摘要
本发明提供一种基于离线强化学习的策略制定方法及相关设备,获取数据集;其中,数据集包括:在不同时间段下通过同一单策略采集得到的数据、在同一时间段下通过不同单策略采集得到的数据、在不同时间段下通过同一策略组合采集得到的数据、在同一时间段下通过不同策略组合采集得到的数据;根据数据集生成多个元组,根据各个元组构建相应的价值函数,并利用价值函数和各个元组构建相应的策略模型;通过智能体利用待测小区执行当前策略得到的当前状态、当前动作和当前奖励预测待测小区的下一状态,并根据当前状态、当前动作、当前奖励和待测小区的下一状态,预测下一动作;利用下一动作更新当前策略,得到待测小区的业务保障策略。
技术关键词
策略制定方法
时间段
小区
无线网络系统
计算机可执行指令
模型训练方法
数据
离线
可读存储介质
存储器
参数
处理器
程序
电子设备
关系
算法
系统为您推荐了相关专利信息
三维地形模型
反射点
时延
信号传播路径
信号识别模块
通信业务信息
分配信息
样本
无线资源分配方法
小区
K均值聚类算法
电池运行状态
决策树分类方法
滑动窗口技术
管理方法