睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升

搜索
AI-TNT
正文
资源拓展
睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升
2025-05-03 15:51

AI「睡觉」时也能思考了?


Letta和UC伯克利研究者提出了「睡眠时计算」(Sleep-time Compute)技术,旨在提高LLM推理效率,让模型在空闲时间思考。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


过去一年,推理模型可太火了。回答问题之前,它会先自己琢磨琢磨。


然而,测试时扩展计算存在明显的弊端,会导致高延迟,推理成本也大幅增加。


睡眠时计算让模型在空闲时也「动动脑筋」。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


简单来讲,模型在没有接收用户查询的空闲时间,提前分析和推理上下文信息。


通过预测用户可能提出的问题,预先算出有用结果,这样用户提问时,模型就能更快、更高效地给出答案。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


这项技术在保持准确性的同时,降低了推理成本,给AI系统提供了全新的方向。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


论文链接:https://arxiv.org/abs/2504.13171


研究发现:


  • 睡眠时计算能将达到相同准确率所需的测试时计算量减少约5倍。


  • 通过扩展睡眠时计算,模型性能可提升13%。在Stateful AIME任务中,提升幅度高达18%。


  • 通过分摊睡眠时计算的成本,可以将每个查询的平均成本降低2.5倍。


  • 睡眠时计算在查询从上下文可预测的场景中效果更好。


睡眠时计算


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


打个比方,你是一个图书管理员(模型),有人来问图书馆的藏书(上下文)。


以往,有人问了,才去图书馆找答案,这样效率很低。而现在,你可以在空闲时,先整理分类书籍,预测读者可能会问的问题,并做好相应的笔记(预计算)。


这样读者提问时,就能根据笔记和整理好的书籍迅速回答。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


实验结果


为验证睡眠时计算的有效性,研究人员进行了一系列实验。


Stateful GSM-Symbolic是从GSM-Symbolic的P1和P2拆分而来,增加了问题的难度。


Stateful AIME则从2024年和2025年美国数学邀请赛题目中选了60个问题,同样拆分成上下文和问题。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


Multi-QueryGSM-Symbolic数据集是为了研究共享上下文的影响,每个上下文包含多个查询。


在GSM-Symbolic数据集上,用GPT-4o-mini和GPT-4o进行实验。


在AIME数据集上,使用OpenAI的o1、o3-mini、Anthropic的Claude Sonnet 3.7 Extended Thinking以及Deepseek-R1等模型。


基线采用标准测试时计算,即测试时同时把上下文c和查询q提供给模型。


改善帕累托边界


睡眠时计算能否改变测试时计算与准确率之间的帕累托边界?


在Stateful GSM-Symbolic和Stateful AIME中,睡眠时计算展现出了强大的优势,它能将达到相同准确率所需的测试时计算量减少约5倍!


这意味着在资源有限时,用睡眠时计算可让模型保证准确率的同时,大幅减少计算资源消耗。


从图中可以看出,在低测试时预算下,睡眠时计算的性能远超过基线。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


应用睡眠时计算后,测试时间和准确率有显著的帕累托偏移。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


扩展睡眠时计算


扩展睡眠时计算规模,能否进一步优化帕累托边界?


Stateful GSM-Symbolic任务中,扩展睡眠时计算会使帕累托曲线外移,相似的测试时间预算下,性能最高提升13%。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


在Stateful AIME任务中,扩展睡眠时计算,性能提升高达18%。


这表明通过合理增加睡眠时的计算资源投入,可以进一步优化模型性能。


分摊睡眠时计算


当单个上下文对应多个关联问题时,分摊测试时计算与睡眠时计算能否带来总体token效率提升?


研究人员想了解如何在每个上下文都有多个查询的设置中,应用睡眠时计算来改善推理的总成本。


Multi-Query GSM-Symbolic数据集中,当每个上下文有10个查询时,通过分摊睡眠时计算的成本,每个查询的平均成本降低2.5倍。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


这对实际应用意义重大,处理大量相关查询时,能大幅降低计算成本。


可预测查询获益更多


研究人员还发现,睡眠时计算在查询可预测性高的场景中效果更好。


随着问题从上下文中变得更加可预测,睡眠时计算和标准测试时间计算之间的准确度差距不断扩大。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


当问题更容易从上下文中预测时,睡眠时计算的效果就越好,模型的性能提升也更为明显。


软件工程中的应用


除了在数学推理任务中的出色表现,睡眠时计算在实际的软件工程任务中也进行了测试。


研究人员引入了SWE-Features这个软件工程基准,它聚焦于需要编辑多个文件和实现新功能的任务。


在这个场景中,研究人员将拉取请求(PR)作为查询q,相关的PR作为上下文c。


在睡眠时间,智能体可以探索存储库,提前总结对相关PR的理解,生成新上下文c'。


而标准测试时计算的基线设置中,智能体在测试时才同时收到上下文和查询信息。


评估方式是比较智能体预测的修改文件集和实际的修改文件集,通过计算F1分数衡量智能体表现。


结果显示,在较低测试时计算预算下,利用睡眠时计算可显著提高性能,测试时token数最多可减少约1.5倍。


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升


但在高测试时计算预算下,仅用标准测试时计算表现更好,因为它能更早开始编辑文件,且总体编辑文件较少。


启用睡眠时计算的智能体虽然精度略低,但在处理复杂任务方面有一定优势。


参考资料:


https://x.com/Letta_AI/status/1914356940412772414


https://x.com/charlespacker/status/1914380650993569817


https://www.letta.com/blog/sleep-time-compute


文章来自于微信公众号 “新智元”,作者 :英智


睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

IOS下载
安卓下载
微信群
沪ICP备2023015588号