摘要
本发明公开了一种强化学习推荐系统的多模型去噪方法及系统,所述去噪方法包括:获取含噪声交互数据,使用广义矩阵分解模型和其他两种矩阵分解模型作为预测模型对含噪声交互数据进行预测;通过最小化多个预测模型之间拟合的真实用户偏好分布的KL散度,同时最大化给定真实用户偏好条件下观测数据的似然,以此优化预测模型参数;经优化后的预测模型作为教师模型,并通过降噪正样本噪声和降噪负样本噪声对教师模型训练得到去噪教师模型;构建学生模型,并定义目标损失函数。本发明利用上述去噪算法训练去噪用户模型,用于和在线强化学习策略交互,提供更符合用户真实偏好的反馈,提高强化学习推荐方法的噪音鲁棒性和推荐性能。
技术关键词
模型去噪方法
学习推荐系统
矩阵分解模型
教师
优化预测模型
噪声
学生
样本
模型训练模块
非暂态计算机可读存储介质
学习推荐方法
强化学习策略
数据
去噪系统
定义
去噪算法
参数
广义
标签
系统为您推荐了相关专利信息
实训车间
实训平台
策略优化模型
任务分配信息
职业