摘要
本发明涉及模型训练技术领域,可应用于金融科技和医疗健康领域,公开了一种基于剪枝的策略模型训练方法、装置、设备及介质,方法包括:获取多个第一完成项集合,针对每一所述第一完成项集合中的完成项,根据奖励函数计算所述完成项的优势值;根据所述优势值对所述第一完成项集合进行剪枝得到第一有效完成项子集;根据所述第一有效完成项子集和所述第一完成项集合检测是否满足补充完成项条件;若满足所述补充完成项条件,则重新获取多个第二完成项集合,并对所述第二完成项集合进行剪枝得到第二有效完成项子集;根据所述第一有效完成项子集和所述第二有效完成项子集对新策略模型进行训练。提高了策略模型训练的效率。
技术关键词
模型训练方法
策略
模型训练技术
模型训练装置
可读存储介质
医疗健康
处理器
计算机设备
存储器
金融
科技
系统为您推荐了相关专利信息
时间序列预测模型
混合预测模型
节能远程控制
节能设备
特征工程
服务器散热调控
参数
散热设备
矩阵
服务器散热技术
动态预警方法
预警平台
环境保护交叉技术
学习控制器
数据生成器
策略分析方法
动态定价策略
关联规则挖掘算法
忠诚度
组合特征向量