LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

正文

资源拓展

2025-04-02 09:50

LLM正推动推荐系统革新，以用户表征为「软提示」的范式开辟了高效推荐新路径。在此趋势下，淘天团队发布了首个基于用户表征的个性化问答基准UQABench，系统评估了用户表征的提示效能。

在「千人千面」的个性化服务浪潮中，大语言模型（LLM）凭借强大的语义理解与生成能力，正在重塑推荐系统与个性化问答的产业格局。

研究背景：当推荐系统遇见大模型，如何突破效率与效果的双重挑战？

传统方案通过将用户点击历史转化为文本提示注入LLM上下文，虽能提升相关性，却面临两大硬伤：

效率瓶颈：单用户行为序列动辄数万token，远超LLM上下文窗口限制，推理延迟与成本飙升；

噪声干扰：冗余点击、误操作等噪声易误导模型，削弱个性化效果。

破局之道：将用户行为序列压缩为高密度的表征向量（user embeddings），以「软提示」形式驱动LLM生成精准回复。

然而，这一路径的核心争议在于——用户表征能否真正承载关键信息并有效引导LLM？UQABench应运而生，成为首个系统化评估用户表征质量的权威基准。

核心创新：三阶评估体系 + 三维任务设计，直击产业痛点

1. 标准化评估流程：从预训练到场景化对齐

预训练：基于海量行为数据训练用户编码器（如SASRec、HSTU），捕获兴趣模式；

对齐微调：通过轻量Adapter（线性映射/Q-Former）桥接推荐空间与LLM语义空间，破解「表征-语义」鸿沟；

场景化评估：设计多粒度任务验证用户表征的实用价值。

2. 三维任务体系：覆盖传统需求与LLM新愿景

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

重磅发现：用户表征的效能密码与工业启示

模型架构：Transformer类模型（如HSTU）显著优于RNN类模型（如GRU4Rec，Mamba），序列建模能力更适配LLM需求；

信息融合：商品侧ID特征（类目/品牌）与文本描述（标题）联合编码，可提升LLM对用户兴趣的解读精度；

效率革命：最优表征模型效果逼近纯文本方案，推理token数减少90%+，成本效益比突破性提升；

扩展定律：编码器参数量从3M增至1.2B，LLM个性化性能持续提升，为「离线训练强化+在线高效推理」提供理论支撑。

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

论文链接：https://arxiv.org/abs/2502.19178

代码库仓库：https://github.com/OpenStellarTeam/UQABench

数据集下载：https://www.kaggle.com/datasets/liulangmingliu/uqabench

接下来，我们来详细介绍论文的内容。

论文详解

研究背景

大语言模型（LLM）近年来在推荐系统和个性化问答中被广泛应用。为了追求更加个性化的用户体验，实现「千人千面」，将用户的历史点击序列融入LLM的输入中变得至关重要。最常见结合的方式是，将用户点击历史，利用特定的规则转化为自然语言文本，作为LLM的用户背景提示（context）。

然而，从工业应用的角度来看，噪声以及超长序列带来的性能和开销问题，对直接将序列文本用作用户context提出了挑战。一种自然的解决方案是，将用户交互历史压缩和提炼为表征向量（或向量组），作为软提示（soft prompt）辅助LLM生成个性化的回复。

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

虽然这种方法提高了效率，但一个关键问题随之而来：用户嵌入能否充分捕获用户交互历史中有价值的信息并提示LLM？为了解决这一问题，研究人员提出了UQABench，一个专为评估用户嵌入在提示LLM进行个性化时的有效性而设计的基准。研究人员建立了一个公平和标准化的评估流程，涵盖了预训练、微调和评估阶段。

为了全面评估用户嵌入，研究人员设计了三种维度的任务：序列理解、动作预测和兴趣感知。这些评估任务覆盖了传统推荐任务中提高召回/排序指标等行业需求，以及基于LLM方法的愿景，如准确理解用户兴趣和提升用户体验。

研究人员对用于建模用户的多种经典方法（如SASRec）和SOTA方法（如HSTU、Mamba4Rec）进行了广泛实验和评估。此外，研究人员揭示了利用用户嵌入来提示LLM的scaling law。

任务类型

UQABench由淘宝电商系统中18万个用户对100万个商品的点击的行为数据构建而来，要求LLM基于给定用户的表征向量，回答一个自然文本形式问题。问题类型有三大类共七个子任务，用以评估推荐系统中最关键的几类问题。

1. 序列理解：

分为直接特征理解和match类特征理解。前者要求模型回答用户序列中一些显而易见的特征，例如「用户最近点击的三个商品的品牌分别是什么」，而后者要求模型回答一些交叉类的特征，例如「用户共点击过多少次手机类商品」。序列理解任务涉及使用LLM从用户嵌入中提取和恢复历史用户信息。目标是评估用户嵌入在多大程度上可以作为桥梁，将用户交互序列中的必要信息传递给LLM。这个任务关系到在LLM时代用户嵌入是否可以替代大量的用户侧特征工程。

2. 动作预测：

预测用户下一个要点击的商品和要点击商品的属性，例如「基于用户的浏览历史，该用户下一个要点击的商品的标题是什么」。该任务的目标是评估用户嵌入如何能够帮助LLM完成诸如Top-k推荐和点击率（CTR）预测等传统工业推荐系统任务，这与电商平台的收入密切相关。

3. 兴趣感知：

预测用户的短期兴趣、长期兴趣以及兴趣的变化轨迹，例如「用户最喜欢的品牌是什么」或是「用户近期最喜欢什么类目的商品」。这反映了基于LLM做推荐的方法的愿景：准确理解用户兴趣和提升用户体验。基于LLM的推荐系统相比传统推荐系统的一个革命性进步是在引入显著的多样性方面。受限于训练范式和协同过滤框架，传统推荐系统往往集中在热门项目和频繁互动的用户上。研究人员希望用户嵌入能够帮助基于LLM的方法召回多样的用户兴趣项目，从而提高个性化并增强用户体验。

数据构造

首先，随机圈定18万个近期有较活跃行为的淘宝用户，并获取他们的商品点击行为序列。出于对合规性的需要，需要对各种ID类信息进行了脱敏、并移除了用户行为序列中的敏感商品。除此之外，研究人员还在不损伤效果的前提下，对用户行为序列做了一定程度的改写，以保护用户的隐私。

针对每一类问题，研究人员都为其设计了提问的模版。给定一个任务特定的模板和用户数据，便可以基于用户交互自动生成相应的问题和答案。例如，为直接特征理解任务设计的模板可能是「用户最近点击的 k个商品的类目分别是什么」，只需要将用户行为序列的后k个item的类目作为答案即可。

由于让LLM生成高度专业化问题的完整答案是不切实际的，所以UQABench以选择题的形式评测。此外，研究人员还采用了一些过滤规则，以避免简单或过于繁琐的问题。

评测流程

研究人员提供了三份数据，待评测的模型需要在前两份数据上进行训练，并在第三份数据上做预测，并执行评测。整个评测流程分为三个阶段：

1. 预训练：

将待评测的用户建模模型（例如SASRec或HSTU），在研究人员提供的用户行为序列数据上进行预训练，训练任务可以自由设置，默认使用 next item prediction。

2. 对齐：

预训练后的encoder可以产出捕捉用户兴趣的表征，但是还需要引入一个adapter，用来桥接协同过滤空间和LLM语义空间。常见的adapter有简单的线性映射（维度对齐）加mean-pooling（长度压缩），或是稍微复杂一点的q-former。Adapter是随机初始化、未经训练的。所以需要在研究人员提供的对齐数据上进一步finetune。

3. 评估：

用对齐后的用户表征模型，生产对应的用户表征，并回答测试集中的7000个问题，然后使用打分脚本获得评价指标。

实验发现

1. 总体实验：

研究人员评价了几个广泛流行的用户建模模型，在整体对比实验中，以HSTU 为代表的Transformer类模型在用户超长周期兴趣的表征的能力上表现出强劲的效果，超越了RNN类模型（GRU4Rec和Mamba4Rec）。

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

2. 消融实验：

a. 在对用户序列进行编码时，商品信息中的side info（例如类目ID、店铺ID和品牌ID）等和文本信息（例如标题），都会有助于LLM对用户表征的理解，在建模时需要将它们考虑在内。

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

b. 即使使用最简单的线性映射与平均池化（linear + mean pooling）作为adapter，将用户的表征压缩为一个单一向量（输入给LLM时仅仅占用一个token的位置），也能取得不错的效果，这说明单一向量的表达能力也很强。Q-former的训练稳定性比较差，对参数比较敏感，使用未经细调的超参数效果不佳。

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

3. 效率实验：

研究人员也比较了基于纯文本context的模型的效果（TextN表示用户行为序列截断到近期的N个item），可以看出，最优秀的基于embedding的模型，效果可以接近文本模型，但其输入给LLM的token数只有前者的5%左右，推理开销要小得多，性价比很高。

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

4. 放缩实验：

研究人员将用户编码器的参数量，从3M逐渐扩大到1.2B，并逐个进行完整评测流程（预训练-微调-评测），可以从评测结果看出性能与模型大小之间呈现的明显扩展规律。这一结果对工业场景应用具有重要意义：可以通过在离线环境强化编码器模型（即扩大模型规模），持续提升LLM在在线环境中的个性化性能，而不会影响推理效率。

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

最后，欢迎广大研究者使用评测集进行实验和研究。淘天集团算法技术-未来生活实验室团队将持续为中文社区的发展贡献力量。

作者介绍

核心作者包括刘朗鸣，刘石磊，袁愈锦，苏文博。作者团队来自淘天集团的算法技术-未来生活实验室团队和阿里妈妈-搜索广告团队。

为了建设面向未来的生活和消费方式，进一步提升用户体验和商家经营效果，淘天集团集中算力、数据和顶尖的技术人才，成立未来生活实验室。

实验室聚焦大模型、多模态等AI技术方向，致力于打造大模型相关基础算法、模型能力和各类AI Native应用，引领AI在生活消费领域的技术创新。

参考资料：

https://arxiv.org/abs/2502.19178

https://github.com/OpenStellarTeam/UQABench

https://www.kaggle.com/datasets/liulangmingliu/uqabench

文章来自于“新智元”，作者“编辑部”。

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。

项目地址：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址：https://github.com/PeterH0323/Streamer-Sales

IOS下载

安卓下载

微信群

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

站点导航

APP 下载

研究背景：当推荐系统遇见大模型，如何突破效率与效果的双重挑战？

核心创新：三阶评估体系 + 三维任务设计，直击产业痛点

1. 标准化评估流程：从预训练到场景化对齐

2. 三维任务体系：覆盖传统需求与LLM新愿景

重磅发现：用户表征的效能密码与工业启示

论文详解

研究背景

相关工作

任务类型

数据构造

评测流程

实验发现

作者介绍