摘要
本说明书实施例提供模型训练优化方法、装置及计算设备,其中模型训练优化方法包括:获取强化学习模型,强化学习模型的强化学习过程包括推理阶段、前向传播阶段和模型训练阶段,推理阶段、前向传播阶段和模型训练阶段串行进行;在推理阶段结束后,卸载推理阶段使用的机器资源,在前向传播阶段和模型训练阶段,复用推理阶段使用的机器资源,基于推理阶段获得的样本数据对强化学习模型进行前向传播和模型训练。推理阶段结束后卸载所使用的机器资源,在前向传播阶段和模型训练阶段分时复用该推理阶段使用的机器资源,降低强化学习过程中所需的机器资源的数量,降低强化学习方法使用的门槛。
技术关键词
强化学习模型
训练优化方法
阶段
计算机可执行指令
资源
优化器
内存
样本
策略
参数
数据
强化学习方法
处理器
计算机程序产品
优化装置
可读存储介质
存储器
键值
门槛
系统为您推荐了相关专利信息
网络训练方法
语义分割网络
解码器
编码器
深度图
知识蒸馏方法
特征提取模块
教师
检测头
调控策略
电池液冷
有机朗肯系统
调控模型
调控系统
泄露保护装置
农业产量预测
土壤水
损失率
随机森林模型
时间预测方法