摘要
本发明公开了一种基于强化学习的动态反馈推荐方法及装置,方法包括:利用因果推理技术预训练用户行为模拟器,生成用户和物品完全交互的反事实用户‑物品二部图;加权聚合真实用户‑物品二部图和反事实用户‑物品二部图,使用Top‑K采样生成交互均衡的用户‑物品二部图;利用图卷积聚合物品的邻域用户信息,获得图结构增强的动作表征;利用门控循环单元和自注意力机制处理用户与推荐系统的交互序列,获得每个时间步的用户状态表征;根据动作表征和用户状态表征预测Q值,基于用户奖励反馈优化推荐模型的动作决策,最终实现对互联网信息的动态反馈推荐。装置包括:处理器和存储器。本发明利用因果推理和图卷积技术引入交互均衡的用户‑物品二部图信息,借助图结构关联丰富和增强智能体动作表征和用户状态表征。
技术关键词
反馈推荐方法
模拟器
推理技术
门控循环单元
动态
卷积技术
邻域
sigmoid函数
推荐系统
注意力机制
生成用户
超参数
处理器
可读存储介质
存储器
推荐装置
节点
互联网
程序
系统为您推荐了相关专利信息
防撞预警系统
隐私保护模块
动态场景
数据生命周期管理
通信模块
数据存储单元
网关
交换网络
动态电压频率调节
Paxos算法
数字签名方法
数字签名验证方法
附加值
数字签名设备
密码算法
精度控制方法
导电油墨
模糊C均值聚类算法
微裂纹
图像