摘要
本发明公开了一种基于大模型自博弈的公平推荐方法及系统,所述方法包括:自博弈数据生成环节,基于用户历史行为数据作为正样本,结合当前模型推荐策略生成的推荐结果作为负样本,构建偏好数据集,并通过数据过滤去除正负样本相似度过高的样本;监督训练环节,在预训练的大语言模型基础上,利用所述偏好数据集进行监督训练,通过交叉熵损失优化模型参数,生成初步推荐策略。本发明旨在通过引入自博弈机制,优化大语言模型在推荐任务中的长尾现象,提升推荐系统的多样性与公平性。通过模型的自生成训练数据,提升推荐系统在不同用户群体和应用场景中的性能,增强推荐系统的个性化和多样性,并在长期迭代中提升模型的稳定性与公平性。
技术关键词
推荐方法
样本
推荐系统
策略
非暂态计算机可读存储介质
生成训练数据
大语言模型
处理器
参数
优化器
基础
存储器
机制
电子设备
模块
场景
动态
定义
程序
系统为您推荐了相关专利信息
深度神经网络
皮肤表面粗糙度
检测面部区域
扩展特征向量
定位关键点
驱动特征
图像处理方法
关键点特征
样本
纹理特征提取
非小细胞肺癌
蛋白质组学技术
标志物
筛选方法
风险预测模型
能源管理系统
能源管理策略
排放量
历史管理
时间序列模型
联邦学习方法
变分自动编码器
客户端
个性化标签
教师