摘要
本发明提供了一种可解释的商品推荐方法、装置及程序产品,该方法包括:S1根据历史信息与元路径构建知识图谱;S2构建强化学习的框架,包括:知识图谱嵌入、强化学习环境、智能体以及策略网络;强化学习环境为基于马尔可夫决策过程搭建的强化学习环境;S3将状态和改进的动作空间输入策略网络,得到改进的动作空间的动作概率分布及状态的状态分数;S4智能体根据动作概率分布进行采样获取并执行一个动作,获得下一个状态,计算并记录该动作执行后的奖励分数,直至达到了预设的最大游走步数或状态的类型为商品的实体,输出推荐路径和推荐项目。利用上述技术方案,可加速收敛速度,提高推荐准确性和推荐路径可解释性,同时增强模型的鲁棒性。
技术关键词
商品推荐方法
强化学习环境
实体
网络
策略
构建知识图谱
决策
商品推荐装置
终端
因子
关系
项目
计算机程序产品
处理器
框架
存储器
鲁棒性
终点
系统为您推荐了相关专利信息
生态农业
强化学习模型
农作物生长参数
农业智能
历史管理
仿蟹机器人
轮驱动
密封套筒
机械手底座
机械手支架
威胁检测方法
关键词
日志采集单元
词语
Hive数据库
数据商品推荐方法
文本
深度学习模型
矩阵
计算机程序代码