摘要
本公开涉及一种模型训练方法、装置、电子设备以及存储介质,方法包括:获取本轮次待训练的推荐模型以及样本引导信息;将样本引导信息输入本轮次待训练的推荐模型,得到第一推荐结果;采用多种评价策略,对第一推荐结果进行评价,得到第一推荐结果的综合评价分值;以提高第一推荐结果的综合评价分值为目标,对本轮次待训练的推荐模型中的参数进行更新。其本质是通过多种评价手段对待训练的推荐模型的第一推荐结果进行评价,而非仅通过单一的评价手段对第一推荐结果进行评价,并将第一推荐结果的综合评价分值引入到损失函数中,通过对推荐模型中的参数进行更新,可以达到训练后的推荐模型能够输出高质量的推荐结果的目的。
技术关键词
策略
模型训练方法
样本
电子设备
模型训练装置
参数
处理器
存储装置
可读存储介质
程序
模块
计算机
场景
系统为您推荐了相关专利信息
环境监测信息
设备运行信息
控制策略模型
控制决策方法
机房设备
视频分析方法
功能模块
分析工具
分析模块
进度条
牛肉
识别方法
高光谱成像设备
深度强化学习算法
融合策略