摘要
本发明公开了一种基于用户反馈驱动的可解释推荐优化系统,其特征在于,包括:离线策略强化学习框架、目标感知的个性化奖励提示、基于帕累托最优的多视角解释优化、总体目标函数以及完整学习算法;通过引入用户主观评价和多目标优化策略,以解决推荐解释质量低下、无法准确反映用户需求的难题。本发明在推荐质量和生成推荐解释文本方面都在原始基础模型上取得了显著的性能提升。
技术关键词
大语言模型
强化学习框架
策略
学习算法
评分机制
视角
格式化
模型更新
离线
交互历史
人类
裁剪技术
定义
集群
检索方法
网络
样本
推荐系统
信息检索
数据分布
系统为您推荐了相关专利信息
地址管理方法
MES系统
网络交换机
制造执行系统
终端设备
机械腿
机器人控制方法
深度相机
机器人外壳
履带底盘
方向盘旋转角度
模型训练方法
卷积神经网络模型
图像
策略
基材料
深度学习模型
生物
传感器模块
人工智能控制系统
资源调度系统
网络节点
客户端
资源调度装置
资源调度方法