摘要
本发明公开了一种基于用户满意度的推荐系统优化方法,属于推荐系统技术领域。本发明将用户的决策过程建模为马尔可夫决策过程,并假设用户在与推荐系统交互的过程中始终试图最大化满意度。基于这一假设,用户的交互数据集可视为专家行为数据。随后,本发明提出了一种基于逆强化学习的方法来训练得到用户满意度模型。最后,本发明设计了一项辅助对齐任务使得推荐系统在推荐的过程中最大化用户满意度,该任务可以与任何序列推荐模型相结合,实现推荐系统与用户满意度的对齐。本发明具有通用性强、适用场景广等优点,可广泛应用于新闻、音乐、电商等多种推荐场景。
技术关键词
满意度模型
推荐系统优化方法
交互历史数据
决策
序列推荐
参数
策略
样本
代表
点击率
数据格式
方程
场景
算法
表达式
电商
系统为您推荐了相关专利信息
智能协同管理系统
人机协同
国土空间规划
策略
决策
机器人定位控制系统
车载工业
导向车
六自由度机械臂
纱锭
聚类分析系统
临床试验数据
诊疗规则
子模块
智能决策支持
天然气场站
调流系统
接入物联网云平台
适配器
智能故障诊断