北京的这个夏天，AI圈有多热

AI资讯 2026-06-15 09:47

+6845 阅读

北京的这个夏天，AI圈有多热

6月的北京还处在初夏，胡同里的槐花已谢，蝉鸣未起。而中关村已把AI推向盛夏的热闹。

6月12日，为期两天的第八届北京智源大会，聚集了中国AI圈最热爱交流和学习的顶尖人才。整个大会有数十场主题论坛，几乎场场爆满。嘉宾们的人气仿若明星，他们演讲结束后，被众人包围的场面，不知道的还以为来到了明星演唱会现场。

台下观众也极富热情，哪怕到了午饭时间也丝毫没有离场的意思。

华中师范大学人工智能教育学助理教授熊宇轩，已经连续七年参与智源大会工作，每年大会结束，他都会撰写一篇智源大会的内容分析。刚刚主持完两场论坛的他，在朋友圈写道：对科学，极致热爱，对真理，信仰永恒（愿我的学生们也能找到自己的热爱）。

从今年的北京智源大会能看出，AI正在从会聊天和会生成，转向懂物理和能行动，乃至进入产业。过去AI主要是在语言、图像、代码这些数字世界里证明自己，今年的重点则明显转向物理世界、科学发现，以及真实任务。

世界模型、智能体、具身智能、AI for Science、安全治理，这些词作为今年大会的关键词，已经很说明问题。

这不是一个特别适合喊口号的阶段。因为越往现实里走，AI面对的就越不是排行榜，而是医疗诊断的责任，科研流程的复杂，机器人执行的稳定性，以及智能体失控之后由谁买单。

也正因为如此，今年智源大会的看点，不在于某一个单点发布有多惊艳，而在于它把AI下一阶段的几个硬问题摆到了同一张桌子上。那就是理解世界，行动于世界，并且别把世界搞坏。

会场上的信息密度很高，嘉宾们抛出的判断和线索，很难在一篇文章里逐一展开。我们选取了一些相对有趣的切片，试着从这些片段里，听见AI时代继续加速时传来的几声回响。

01 人与AI的关系

一张“与AI的100种关系”的涂鸦展板上，写满了AI浪潮初期人类在AI面前的“声音”。

北京的这个夏天，AI圈有多热

“AI真的太好用了”、“情绪价值拉满”、“拥抱AI与爱”

“AI说它没有自我意识，我怀疑它只是在假装听不懂我的话”

“AI替代不了音乐表演”、“AI可以给你答案，但只有你能创造问题”

还有人略带戏谑的口吻写道：“我看这人类与AI也是一对苦命鸳鸯”。

人们对AI的热情有点像互联网早期，有人写下“互联网将带来世界和平”的句子一样，充满了乐观。互联网后来也不断展现它的黑暗面，但不得不承认，正是起初人们对技术的热情，推动了技术从实验室走向全世界。

正如美国未来学家、科学家罗伊·阿玛拉所说，人们通常会高估技术的短期能力，又会低估技术的长远影响。

在人与AI的关系上，中国工程院士王坚留下了一段经典的表述。他说：“我是一位无药可救的乐观主义者，我们人类还是不要太傲慢，任何新事物出现时，通常都是伴随着恐惧的。就像人类第一次面对火时，也会感到恐惧。”

02 具身智能最火爆

整个会场最火爆的，仍然是具身。

北京的这个夏天，AI圈有多热

这界智源大会的热闹，不是人形机器人现场大秀类人动作，也不是机器人与人互动时引发的围观，而是具身论坛本身的人气。论坛开始前，座位早已坐满，后排和两边的过道站满了听众。全场最小的观众，是一位十来岁的少年，坐在会场的前排，认真听完具身公司的CEO的实验室进展。

展位前的具身公司也感受到了人们的盛情。PNDbotics的工作人员告诉我们，大半天的时间，接待的媒体人就不下20位。PNDbotics是一家人形机器人的全栈开发者和制造商，2023年9月成立。实际上，早在2011年起，创始团队便深耕仿生机器人底层技术，也是国内较早系统性研发准直驱执行器的团队之一。

PNDbotics旗下的人形机器人Adam，也借助自研的高性能执行器（关节），无论是打太极还是手腕运动，动作都很灵活，逼近真人效果。据了解，PNDbotics成立不到三年，已经完成9轮融资。

当行业纷纷将更多精力放在机器人大脑时，许多年轻人正在默默补齐具身智能最稀缺的燃料——高质量数据。北京航空航天大学的一位大三学生告诉我们，他从大一在具身行业的实验室实习，一直在做具身行业的数据infra。

他说，现在具身行业的高效果数据需求非常大，而公司不愿意投入大量成本，采集到的数据都需要人工标注，非常费时费力。他特别想做的是开发一套自动标注的系统，能解决当前具身数据的痛点。

03 小米罗福莉：AI已经能自己训练自己

小米集团大模型负责人罗福莉在论坛上提到，Fable 5的能力提升并不是突然跃迁，而是Scaling持续推进后的阶段性结果。她推测Fable 5的参数规模可能达到当前最强开源模型数倍的水平。

具体来看，一是预训练规模仍在扩大，二是Test-Time Scaling和强化学习继续投入大量算力，三是训练数据正在从互联网文本，扩展到人与Agent共同产生的合成数据。

也就是说，模型能力还没有走到尽头，现有几条扩展路径仍然有效。

其次，对于大模型能力增长曲线，她不倾向于简单判断为线性或指数增长。她认为模型进步往往带有“涌现”特征，在不同Scaling路径、不同发展阶段，都可能出现能力突然外延的情况，因此很难用一条固定曲线描述。

尤其在AI自进化上，她观察到顶尖模型已经不再只是“执行工具”。上一代模型更擅长在明确指令下完成任务，而今天的模型正在进入更抽象的科研流程，例如设计验证指标、检查执行结果、规划实验流程。它和顶尖研究员的主要差距，仍在于提出有价值、可验证的问题，以及判断哪些研究应当及时停止。

这种“研究品味”和判断力，目前仍是人类优势，但更强模型叠加递归自我改进式Agent系统，正在逼近这些边界。

谈到语言模型与世界模型的路径，她认为两者正在并行推进，但现阶段语言模型更快，因为数字世界更容易还原智能诞生的环境，也更适合通过 Agent 系统和奖励机制驱动模型自我提升。世界模型仍处早期，关键挑战在于能否构建高效的世界模拟器，尤其是长上下文场景下的视频生成效率。

最后罗福莉还给年轻人提出建议，她强调不要只被焦虑牵着走，而要保持探索欲和好奇心，并尽可能深入使用最新大模型。通过大量试错，年轻人才能逐渐形成自己的判断力、研究品味和产品品味。

04 具身的“AlphaGo时刻”

人形机器人距离ChatGPT时刻还有多远？银河通用的CTO王鹤在多个分会场不止一次提到，具身智能行业即将迎来自己的Alphago时刻，和ChatGPT时刻。

2016年，AlphaGo战败李世石，标志着AI在专精领域首次超越人类。GPT系列定义了scaling up范式，推动自然语言处理走向通用，2022年ChatGPT3的出现被视为大语言通用模型的里程碑节点。

王鹤将银河通用的人形机器人打网球，定义为具身智能的“AlphaGo时刻”。

今年3月16日，银河通用发布了全球首个、也是目前唯一的人形机器人和人打网球视频，无任何遥控或人为介入。发布后1.5小时内，视频获得180万次观看。

Elon Musk看到后，发贴表示“insane（震惊）”，当然也有不少人不相信是真的，说这是AI生成的假视频。王鹤解释说，网球同时要求low-level的全身精确控制和high-level的策略决策，是少数能将两者紧密耦合的运动项目，这对人形机器人的挑战非常大，因此具有标志性意义。

大部分机器人无法实现的转笔运动，王鹤也称之为AlphaGo时刻。2023年，英伟达曾在仿真器中展示灵巧手转笔，但迟迟未能迁移到真实世界。银河通用目前是全球唯一实现真实世界灵巧手转笔的团队。

王鹤认为，背后的核心逻辑是，银河通用提出的参照人类神经系统的Astro Brain（银河星脑）架构，同时拥有通用大脑和通用小脑，并通过脑桥异步协作。

迈向机器人ChatGPT时刻的两大关键技术，王鹤给出了量化定义。预训练后zero-shot成功率达到70%~80%，同时具备快速普及部署的可及性（accessibility）。

王鹤还描绘了人形机器人终极发展途径。一旦突破ChatGPT时刻，将快速向AI Agent（A1）发起冲刺。当到达A1时刻，人形机器人将以“手机的量、汽车的价格、大模型的智能”进入千行百业，这将是10万亿美元级别的市场，标志着第四次工业革命的到来。

05 语言仍是最有智能水平的模态

今年上半年，世界模型几乎是创投圈最火爆的概念，也是业内最争执不下的方向。资本的逻辑，不排除投资人们害怕错过的心理因素，但最重要的是业内逐渐形成共识。要想实现AGI，AI必须理解世界物理规则，不少世界模型的研究者们认为，世界模型的认知拐点即将到来。

从视频生成模型，到李飞飞的空间大模型，以及图灵奖得主杨立昆的抽象表征为代表的世界模型，技术路线上从未收敛。李飞飞最经典的案例是，人类婴儿在学会说话之前，已经在通过触摸、爬行、观看、跌倒等，持续建立理解物理世界的直觉。她的核心观点之一是，真正理解物理世界的智能并非语言，而是发生在空间里。

智源大会上，自变量机器人联合创始人兼CTO王昊做了半个多小时分享，他的主题是《事件驱动的世界模型：迈向通用具身智能的预训练》。这与李飞飞的观点恰好相反。他认为当前真正具有智能水平的模态只有语言，而且语言是人与模型交流的唯一方式。

相比当前按照帧为单位训练模型方式，他认为，应从语言、视觉和动作的多模态中抽象出“事件”，作为最合适的尺度单位。

人类用语言描述事件，视觉在事件边界处发生关键变化，动作则通过事件改变世界。事件是语言、视觉和动作的交汇点。业内VLA模型视觉做的不好，以视频为基础做模型，语言又很难对齐。他认为，这里面的关键是大家没有在同一尺度下，对齐语言、视觉和动作等多模态数据。

也因此，事件驱动的世界模型不是把语言贴到视频上，而是用语言帮助模型找到世界变化的结构。这意味着，语言在世界模型中的角色正在发生变化。它在推理时，可以利用这种结构把语言能力迁移到其他模态上。

06 AI驱动药物发现

在AI进化方向上，AI辅助生命科学的研究一直是提升人类福祉的最好方式之一。

今年的智源大会上，智源研究院把“悟界”作为一条重要产品线推到台前。如果说“悟界·Brainμ1.0”对应的是大脑信号的理解与生成，“悟界·Physis-v0.1”指向物理世界的建模，那么“悟界·OpenComplex2.5”切入的则是生命科学里最现实，也最难啃的一块，就是AI药物发现。

OpenComplex2.5是下一代AI驱动药物发现模型，核心目标是解决固有无序蛋白（IDP）的动态构象解析问题。传统药物研发很大程度依赖蛋白质的稳定结构，但IDP的麻烦在于，它不是一个安静站着等人观察的靶点，而是高度灵活、持续变化的动态对象。

这类蛋白和神经退行性疾病等复杂疾病关系密切，却长期因为结构难以捕捉、成药路径不清晰，成为药物发现中的难题。

智源给出的解法，是用可泛化、物理真实的端到端全原子分布建模，去描述IDP在不同状态下的构象分布。换句话说，它不是只给出一个静态答案，而是试图捕捉蛋白在真实物理约束下的多种可能状态。这也和今年智源大会从“悟道”走向“悟界”的大方向一致，AI不只是做符号运算，而是要进入物理世界和生命系统，理解那些连续、复杂、动态变化的对象。

从药物研发流程看，OpenComplex2.5的另一个看点，是用单一模型覆盖四个关键环节，口袋识别、反向筛选、结构预测和亲和力预测。它既可以在靶点蛋白中寻找潜在可成药口袋，也可以为一个给定化合物反向匹配潜在靶点。既能预测蛋白-配体复合物的三维结构，也能估算结合亲和力变化趋势，服务于先导化合物筛选和优化。

这意味着，OpenComplex2.5并不是一个单点工具，更像是智源试图搭建的AI制药基础模型。它的价值在于把原本分散、耗时、依赖经验的若干关键步骤，放进一个更统一的模型框架中处理。对于那些过去因为结构高度动态而难以被传统方法处理的靶点，它至少提供了一条新的技术路径，先让AI更接近生命系统本身的复杂性，再谈发现新的药物机会。

07 年轻人一定坚持自己相信的

AI已经很大程度上渗透到各行各业的工作流里，最明显的是程序员。开发过程中，几乎不用人类写一行代码，成为圈内共识。AI在进化的同时，人和AI的不断交互，会如何影响我们人类本身。

尤其在高校，年轻的学生们同样也在各种学术探索和研究中频繁使用AI。伦敦大学学院博士、里斯托大学助理教授杨梦月感到担忧的一个问题是，年轻的学生能否真正驾驭AI？

杨梦月认为，AI虽然能快速输出大量内容，但会形成很明显的分层。基础知识扎实的学生，会借助AI迅速登上科研的高峰，而基础不扎实的学生，太相信AI，很容易会被AI误入歧途。

她提醒年轻的研究员，在AI能力越来越强时，不要放弃自身对基础知识的构建，要学会培养自己对科研的感知能力和信念。这一点能很好帮助你分辨方向，避免被AI误导。

中国工程院士王坚说，年轻人一定坚持自己相信的。“当你想做一件事情的时候，别人怎么想，别人什么感受，在一定意义上是不重要的。”

最重要的是你在做事情前，有没有那么大的决心。当你不断坚定自己相信的事情，不停说自己会坚持，也如实坚定自己会做的事情，资源和人自然会找上来。

文章来自于"白鲸实验室"，作者 "刘培"。

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md