流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实

下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实
2026-04-28 15:08

开会时,当讨论到「Pask的上下文是不是可以考虑和Obsidian, 或者飞书联动一下?自成一派会很难」 时,Pask思考三秒后,给出了思路:


 「你们如果把用户记忆全都收进自己系统,本质上是在做一个新的数据孤岛。这样虽然短期上更可控,但长期会有两个问题:一是不兼容用户已经在用的工具,二是用户迁移成本太高,生态天花板会很低。更好的定位不是自建一套记忆库,而是做: 个人上下文入口 + 生态上的主动AI编排层。也就是,用户的知识和行为仍然留在原系统里,你们负责理解、索引、触发、协同和执行。Pask更好的位置是:最懂这个人的统一入口,以及能在各生态之间主动行动的代理层。」


理想中的AI、人类真正期待的AGI,必须具备一种能力:主动性。


这种主动性,不是OpenClaw一类产品的「自主性」,也不是会后帮你写封邮件的AI,它必须深度理解你、能猜到你意图,并在恰当时机提供关键帮助的超级外挂大脑。


它不像工具一样被调用,而是需要包围你,能让你感受到「被主动关怀,又极有价值」。


听起来,这个问题似乎关注的是Agent机制,但真正开始做之后,就会发现,这件事远比想象中难:


准确性太低,一盘散沙式的消息看起来像是骚扰短信,给出有深度的实时辅助难度极大。 


实时性太差,仅仅推理人类的需求都要3-4秒,而人类能够忍受的最大延迟极限是两秒。 


海量记忆下对人的深度理解,主动式AI每天接受海量的新token,不可能每次都去查询,怎么保证系统能够自主切换正确的记忆背景,以及最核心的,真正了解自己的主人呢?


南洋理工大学的研究人员调研了大量相关论文和产品后发现,发现过去的大多数工作都在回避这些关键问题,尤其是实时性。


于是,研究人员决定自己探索一套方法,提出了「需求探测—记忆—主动智能体」的范式PASK,包括全新的问题解决范式、IntentFlow流式意图检测模型、自进化式记忆模块和主动智能体工程架构。


流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实


论文链接:https://arxiv.org/abs/2604.08000


流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实


需求检测、长期记忆、主动智能体范式


流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实


首先需要确定:主动AI需要哪些「组件」?


研究人员提出了一个通用范式,将被动模型转换为主动智能,包含三个相互作用的模块:需求检测(DD)长期记忆(MM) 和主动系统(PAS)


需求检测(Demand Detection,DD)是第一步,也是最核心的一步。它与人类同听、同看,并实时检测出当下的需求——比如「他现在需要知道这个词的意思」,或「他可能在怀疑对方是否在说真话」。


长期记忆(MM) 负责系统中的个性化部分。它与用户一起成长、持续进化,作为贯穿始终的「长期上下文」。


主动系统(PAS) 是整个Agent的底层执行逻辑,保持循环运行,驱动前两个组件协同工作。


IntentFlow:流式意图检测模型


流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实


主动AI做过头就是信息骚扰。


一个好的主动AI,必须在实时性、精准度、触发频率上做到精准平衡。但不幸的是,准确率、记忆查询与实时响应,这三个特性天生相互矛盾。


更大的挑战在于:这件事完全无法用传统 Agent 的方式来做。如果整个流程需要在2秒内完成,留给意图检测的时间最多只有1秒,甚至不够完成一次API调用。


而意图推理,到记忆查询,至少需要10秒。


Proactive AI不是简单的Agents机制能做的事,研究人员从语音和视频的端到端流式模型获得灵感,选择了「模型+Agents」实现路径,即重新训一个在「文本流」上实时运行的意图检测模型,构建出了IntentFlow,接收文本化的多模态信息流和用户记忆,自主判断人类当下需要什么。


至于具体最终的结果是什么,IntentFlow并不关注,Intentflow只关心人类需要什么。


IntentFlow更像一座桥:一边是用户面对的信息流,一边是世界上最新,最强的AI,它只负责在正确的时机,成为AI介入的新入口。


MeMory:多层自进化记忆系统


流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实


记忆系统是主动AI与人类共同成长的核心,而主动AI的记忆有一层额外要求:实时


在Pask中,研究人员借鉴了计算机存储的Cache—内存—外存架构,设计了三层记忆体系:


  • 用户记忆(类似 Cache):AI随时需要知道用户是谁、有什么偏好。
  • Workspace 记忆(类似内存):负责当前事件内部的所有上下文信息。
  • 全局记忆(类似外存):现实中的事件往往是一个系列,全局记忆承担「超级上下文」的角色,跨事件持久保存。


PAS:主动AI底层的流式系统


流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实


主动AI如何在复杂的现实环境中稳定运行?


其底层系统相当复杂:每个Demand需要开启一个独立进程,所有环境变量需要持续维护,整个系统中存在一个DD-MM大循环,以及无数个内部小循环。


底层系统分为三层:


  • 前端:负责信息流的输入与输出。
  • 服务器后端:负责多进程执行、循环控制与数据存储调度。
  • AI 后端:负责连接外部模型,提供可调用的搜索、工具和代码执行环境。


实验结果


流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实


流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实


Pask在学习、工作、日常三大领域的十类任务上进行了测试,效果与闭源模型加思考链的水平相当。


在延迟上,当其他开闭源模型普遍都需要3–10秒才能推理一次人类的潜在需要时,Intentflow只需要1.5s就可以结合着人类的个人,工作和全局记忆完成一次完整的意图检测。 


在报告中,研究人员对于主动AI 进行了详细的实验,并总结为了12个findings。 


主动AI的探索


刚刚开始


AI变聪明,这条路已经走了很远;AI懂人,这件事才刚开始。


现实世界没有统一答案,只有复杂的场景、角色和任务。每个行业都有自己的工作流、判断方式和隐性规则,同一句话放在不同人身上,背后的需求可能完全不同。


主动AI的核心挑战,是数据。


真正的意图数据几乎不存在。不是因为缺少人工标注,而是从逻辑上说,标注本身就并不总是成立。


主动AI不再是 「I know what I don't know」 的逻辑,而是 「I don't know what I don't know」,因为所谓更深层、更有价值的信息,往往需要超出用户当下的认知。


很多时候,人并不真正知道自己想要什么,更说不清自己下一步需要什么。能证明 AI 猜对了的,不是一次问答是否对齐,而是它给出帮助之后,用户是不是立刻感到「就是这个」。


底层流式意图模型+上层Agents执行,才是主动AI的未来。


研究人员开发Pask的一年里,有几个月是在agents机制上下功夫的,最终得出的结论很简单:走不通。


原因也很直接:人类能接受的时延,连一次完整的模型调用都不够,更没有时间留给意图推理。


第一作者谢之非是做语音模型背景出身的。面对这个核心矛盾,当时就意识到,这是实时对话模型的历史重演。2024年之前,当语音助手有3秒延迟的时候,没有人能用得下去。


当GPT-4o这类实时模型出现,语音模型的应用瞬间爆发。开发团队当时就想到了用一个流式模型来做意图检测,才有了Intentflow。


所以,Pask从一开始就不打算去卷「更聪明」的执行agents,而是只做一件事:更快、更准地猜中人的心思。


不做更大的模型,也不做更复杂的调用逻辑,而是去回答一个问题:它能不能在连续上下文里看懂你,在你开口之前就知道你的深层意图,并在准确的时机,用极短的时间给出最有价值的帮助。


AI的未来,是主动理解意图的能力真正进入你身边的每一台移动设备,让AI不再只是回答问题,而是成为一个实时理解你、持续贴近你、真正懂你的AI soul knower。


作者介绍


论文第一作者谢之非是南洋理工大学的博士生。通讯作者为颜水成、苗春燕、叶德珩。


流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实


Pask研究团队的Project Lead为来自南洋理工大学的谢之非: 谢之非,南洋理工大学在读PhD。


研究方向为多模态流式模型。本科时曾做出全球首个「开源GPT4o」系列实时对话模型 Mini-Omni系列,三篇一作论文单引超过百次,开源项目累计获5k+ stars。


随后与颜水成老师一拍即合,选择离开清华大学加入NUS LV_Lab,成为其回归学术界后第一个博士生。 论文通讯作者为颜水成老师、苗春燕老师、叶德珩老师。


参考资料:


https://arxiv.org/abs/2604.08000


文章来自于微信公众号 "新智元",作者 "新智元"

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群