流式意图检测+永久记忆，NUS&NTU发布Pask：把贾维斯AI拉进现实

AI技术研报 2026-04-28 15:08

+8059 阅读

开会时，当讨论到「Pask的上下文是不是可以考虑和Obsidian, 或者飞书联动一下？自成一派会很难」时，Pask思考三秒后，给出了思路：

「你们如果把用户记忆全都收进自己系统，本质上是在做一个新的数据孤岛。这样虽然短期上更可控，但长期会有两个问题：一是不兼容用户已经在用的工具，二是用户迁移成本太高，生态天花板会很低。更好的定位不是自建一套记忆库，而是做：个人上下文入口 + 生态上的主动AI编排层。也就是，用户的知识和行为仍然留在原系统里，你们负责理解、索引、触发、协同和执行。Pask更好的位置是：最懂这个人的统一入口，以及能在各生态之间主动行动的代理层。」

理想中的AI、人类真正期待的AGI，必须具备一种能力：主动性。

这种主动性，不是OpenClaw一类产品的「自主性」，也不是会后帮你写封邮件的AI，它必须深度理解你、能猜到你意图，并在恰当时机提供关键帮助的超级外挂大脑。

它不像工具一样被调用，而是需要包围你，能让你感受到「被主动关怀，又极有价值」。

听起来，这个问题似乎关注的是Agent机制，但真正开始做之后，就会发现，这件事远比想象中难：

准确性太低，一盘散沙式的消息看起来像是骚扰短信，给出有深度的实时辅助难度极大。

实时性太差，仅仅推理人类的需求都要3-4秒，而人类能够忍受的最大延迟极限是两秒。

海量记忆下对人的深度理解，主动式AI每天接受海量的新token，不可能每次都去查询，怎么保证系统能够自主切换正确的记忆背景，以及最核心的，真正了解自己的主人呢？

南洋理工大学的研究人员调研了大量相关论文和产品后发现，发现过去的大多数工作都在回避这些关键问题，尤其是实时性。

于是，研究人员决定自己探索一套方法，提出了「需求探测—记忆—主动智能体」的范式PASK，包括全新的问题解决范式、IntentFlow流式意图检测模型、自进化式记忆模块和主动智能体工程架构。

流式意图检测+永久记忆，NUS&NTU发布Pask：把贾维斯AI拉进现实

论文链接：https://arxiv.org/abs/2604.08000

流式意图检测+永久记忆，NUS&NTU发布Pask：把贾维斯AI拉进现实

需求检测、长期记忆、主动智能体范式

流式意图检测+永久记忆，NUS&NTU发布Pask：把贾维斯AI拉进现实

首先需要确定：主动AI需要哪些「组件」？

研究人员提出了一个通用范式，将被动模型转换为主动智能，包含三个相互作用的模块：需求检测（DD）、长期记忆（MM） 和主动系统（PAS）。

需求检测（Demand Detection，DD）是第一步，也是最核心的一步。它与人类同听、同看，并实时检测出当下的需求——比如「他现在需要知道这个词的意思」，或「他可能在怀疑对方是否在说真话」。

长期记忆（MM） 负责系统中的个性化部分。它与用户一起成长、持续进化，作为贯穿始终的「长期上下文」。

主动系统（PAS） 是整个Agent的底层执行逻辑，保持循环运行，驱动前两个组件协同工作。

IntentFlow：流式意图检测模型

流式意图检测+永久记忆，NUS&NTU发布Pask：把贾维斯AI拉进现实

主动AI做过头就是信息骚扰。

一个好的主动AI，必须在实时性、精准度、触发频率上做到精准平衡。但不幸的是，准确率、记忆查询与实时响应，这三个特性天生相互矛盾。

更大的挑战在于：这件事完全无法用传统 Agent 的方式来做。如果整个流程需要在2秒内完成，留给意图检测的时间最多只有1秒，甚至不够完成一次API调用。

而意图推理，到记忆查询，至少需要10秒。

Proactive AI不是简单的Agents机制能做的事，研究人员从语音和视频的端到端流式模型获得灵感，选择了「模型+Agents」实现路径，即重新训一个在「文本流」上实时运行的意图检测模型，构建出了IntentFlow，接收文本化的多模态信息流和用户记忆，自主判断人类当下需要什么。

至于具体最终的结果是什么，IntentFlow并不关注，Intentflow只关心人类需要什么。

IntentFlow更像一座桥：一边是用户面对的信息流，一边是世界上最新，最强的AI，它只负责在正确的时机，成为AI介入的新入口。

MeMory：多层自进化记忆系统

流式意图检测+永久记忆，NUS&NTU发布Pask：把贾维斯AI拉进现实

记忆系统是主动AI与人类共同成长的核心，而主动AI的记忆有一层额外要求：实时。

在Pask中，研究人员借鉴了计算机存储的Cache—内存—外存架构，设计了三层记忆体系：

用户记忆（类似 Cache）：AI随时需要知道用户是谁、有什么偏好。
Workspace 记忆（类似内存）：负责当前事件内部的所有上下文信息。
全局记忆（类似外存）：现实中的事件往往是一个系列，全局记忆承担「超级上下文」的角色，跨事件持久保存。

PAS：主动AI底层的流式系统

流式意图检测+永久记忆，NUS&NTU发布Pask：把贾维斯AI拉进现实

主动AI如何在复杂的现实环境中稳定运行？

其底层系统相当复杂：每个Demand需要开启一个独立进程，所有环境变量需要持续维护，整个系统中存在一个DD-MM大循环，以及无数个内部小循环。

底层系统分为三层：

前端：负责信息流的输入与输出。
服务器后端：负责多进程执行、循环控制与数据存储调度。
AI 后端：负责连接外部模型，提供可调用的搜索、工具和代码执行环境。

实验结果

流式意图检测+永久记忆，NUS&NTU发布Pask：把贾维斯AI拉进现实

Pask在学习、工作、日常三大领域的十类任务上进行了测试，效果与闭源模型加思考链的水平相当。

在延迟上，当其他开闭源模型普遍都需要3–10秒才能推理一次人类的潜在需要时，Intentflow只需要1.5s就可以结合着人类的个人，工作和全局记忆完成一次完整的意图检测。

在报告中，研究人员对于主动AI 进行了详细的实验，并总结为了12个findings。

主动AI的探索

刚刚开始

AI变聪明，这条路已经走了很远；AI懂人，这件事才刚开始。

现实世界没有统一答案，只有复杂的场景、角色和任务。每个行业都有自己的工作流、判断方式和隐性规则，同一句话放在不同人身上，背后的需求可能完全不同。

主动AI的核心挑战，是数据。

真正的意图数据几乎不存在。不是因为缺少人工标注，而是从逻辑上说，标注本身就并不总是成立。

主动AI不再是「I know what I don't know」的逻辑，而是「I don't know what I don't know」，因为所谓更深层、更有价值的信息，往往需要超出用户当下的认知。

很多时候，人并不真正知道自己想要什么，更说不清自己下一步需要什么。能证明 AI 猜对了的，不是一次问答是否对齐，而是它给出帮助之后，用户是不是立刻感到「就是这个」。

底层流式意图模型+上层Agents执行，才是主动AI的未来。

研究人员开发Pask的一年里，有几个月是在agents机制上下功夫的，最终得出的结论很简单：走不通。

原因也很直接：人类能接受的时延，连一次完整的模型调用都不够，更没有时间留给意图推理。

第一作者谢之非是做语音模型背景出身的。面对这个核心矛盾，当时就意识到，这是实时对话模型的历史重演。2024年之前，当语音助手有3秒延迟的时候，没有人能用得下去。

当GPT-4o这类实时模型出现，语音模型的应用瞬间爆发。开发团队当时就想到了用一个流式模型来做意图检测，才有了Intentflow。

所以，Pask从一开始就不打算去卷「更聪明」的执行agents，而是只做一件事：更快、更准地猜中人的心思。

不做更大的模型，也不做更复杂的调用逻辑，而是去回答一个问题：它能不能在连续上下文里看懂你，在你开口之前就知道你的深层意图，并在准确的时机，用极短的时间给出最有价值的帮助。

AI的未来，是主动理解意图的能力真正进入你身边的每一台移动设备，让AI不再只是回答问题，而是成为一个实时理解你、持续贴近你、真正懂你的AI soul knower。

作者介绍

论文第一作者谢之非是南洋理工大学的博士生。通讯作者为颜水成、苗春燕、叶德珩。

流式意图检测+永久记忆，NUS&NTU发布Pask：把贾维斯AI拉进现实

Pask研究团队的Project Lead为来自南洋理工大学的谢之非: 谢之非，南洋理工大学在读PhD。

研究方向为多模态流式模型。本科时曾做出全球首个「开源GPT4o」系列实时对话模型 Mini-Omni系列，三篇一作论文单引超过百次，开源项目累计获5k+ stars。

随后与颜水成老师一拍即合，选择离开清华大学加入NUS LV_Lab，成为其回归学术界后第一个博士生。论文通讯作者为颜水成老师、苗春燕老师、叶德珩老师。

参考资料：

https://arxiv.org/abs/2604.08000

文章来自于微信公众号 "新智元"，作者 "新智元"

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。

在线使用：https://ffa.chat/