摘要
本公开涉及机器学习技术领域,具体提供了一种网络调度模型训练的方法、装置、设备、介质及产品。其中,该方法包括:根据拉格朗日乘子、多个网络调度状态样本及其分别对应的网络调度动作,生成离线训练数据;根据离线训练数据,对强化学习模型进行参数调整;根据调整后的强化学习模型,更新拉格朗日乘子;若确定更新后的拉格朗日乘子符合收敛条件,则将调整后的强化学习模型作为训练好的目标网络调度模型,否则,根据更新后的拉格朗日乘子更新离线训练数据,并基于更新后的离线训练数据调整强化学习模型。这样,通过不断更新的离线训练数据进行模型训练,可以在兼顾模型性能的同时,减少训练成本。
技术关键词
强化学习模型
网络
计算机可读代码
离线
样本
数据
策略
拉格朗日对偶
机器学习技术
电子设备
可读存储介质
计算机程序产品
处理器
参数
指令
存储器
系统为您推荐了相关专利信息
人工神经网络
数据预测方法
插值模型
序列
滑动窗口
参数估计方法
参数估计模型
蓄电池组
神经网络模型
放电起始电压
角度控制系统
助力转向系统
角度控制功能
信号
冗余