北京的这个夏天,AI圈有多热

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
北京的这个夏天,AI圈有多热
AI资讯 2026-06-15 09:47
+6124 阅读

北京的这个夏天,AI圈有多热


6月的北京还处在初夏,胡同里的槐花已谢,蝉鸣未起。而中关村已把AI推向盛夏的热闹。


6月12日,为期两天的第八届北京智源大会,聚集了中国AI圈最热爱交流和学习的顶尖人才。整个大会有数十场主题论坛,几乎场场爆满。嘉宾们的人气仿若明星,他们演讲结束后,被众人包围的场面,不知道的还以为来到了明星演唱会现场。


台下观众也极富热情,哪怕到了午饭时间也丝毫没有离场的意思。


华中师范大学人工智能教育学助理教授熊宇轩,已经连续七年参与智源大会工作,每年大会结束,他都会撰写一篇智源大会的内容分析。刚刚主持完两场论坛的他,在朋友圈写道:对科学,极致热爱,对真理,信仰永恒(愿我的学生们也能找到自己的热爱)。


从今年的北京智源大会能看出,AI正在从会聊天和会生成,转向懂物理和能行动,乃至进入产业。过去AI主要是在语言、图像、代码这些数字世界里证明自己,今年的重点则明显转向物理世界、科学发现,以及真实任务。


世界模型、智能体、具身智能、AI for Science、安全治理,这些词作为今年大会的关键词,已经很说明问题。


这不是一个特别适合喊口号的阶段。因为越往现实里走,AI面对的就越不是排行榜,而是医疗诊断的责任,科研流程的复杂,机器人执行的稳定性,以及智能体失控之后由谁买单。


也正因为如此,今年智源大会的看点,不在于某一个单点发布有多惊艳,而在于它把AI下一阶段的几个硬问题摆到了同一张桌子上。那就是理解世界,行动于世界,并且别把世界搞坏。


会场上的信息密度很高,嘉宾们抛出的判断和线索,很难在一篇文章里逐一展开。我们选取了一些相对有趣的切片,试着从这些片段里,听见AI时代继续加速时传来的几声回响。


01

人与AI的关系


一张“与AI的100种关系”的涂鸦展板上,写满了AI浪潮初期人类在AI面前的“声音”。


北京的这个夏天,AI圈有多热


“AI真的太好用了”、“情绪价值拉满”、“拥抱AI与爱”


“AI说它没有自我意识,我怀疑它只是在假装听不懂我的话”


“AI替代不了音乐表演”、“AI可以给你答案,但只有你能创造问题”


还有人略带戏谑的口吻写道:“我看这人类与AI也是一对苦命鸳鸯”。


人们对AI的热情有点像互联网早期,有人写下“互联网将带来世界和平”的句子一样,充满了乐观。互联网后来也不断展现它的黑暗面,但不得不承认,正是起初人们对技术的热情,推动了技术从实验室走向全世界。


正如美国未来学家、科学家罗伊·阿玛拉所说,人们通常会高估技术的短期能力,又会低估技术的长远影响。


在人与AI的关系上,中国工程院士王坚留下了一段经典的表述。他说:“我是一位无药可救的乐观主义者,我们人类还是不要太傲慢,任何新事物出现时,通常都是伴随着恐惧的。就像人类第一次面对火时,也会感到恐惧。”


02

具身智能最火爆


整个会场最火爆的,仍然是具身。


北京的这个夏天,AI圈有多热


这界智源大会的热闹,不是人形机器人现场大秀类人动作,也不是机器人与人互动时引发的围观,而是具身论坛本身的人气。论坛开始前,座位早已坐满,后排和两边的过道站满了听众。全场最小的观众,是一位十来岁的少年,坐在会场的前排,认真听完具身公司的CEO的实验室进展。


展位前的具身公司也感受到了人们的盛情。PNDbotics的工作人员告诉我们,大半天的时间,接待的媒体人就不下20位。PNDbotics是一家人形机器人的全栈开发者和制造商,2023年9月成立。实际上,早在2011年起,创始团队便深耕仿生机器人底层技术,也是国内较早系统性研发准直驱执行器的团队之一。


PNDbotics旗下的人形机器人Adam,也借助自研的高性能执行器(关节),无论是打太极还是手腕运动,动作都很灵活,逼近真人效果。据了解,PNDbotics成立不到三年,已经完成9轮融资。


当行业纷纷将更多精力放在机器人大脑时,许多年轻人正在默默补齐具身智能最稀缺的燃料——高质量数据。北京航空航天大学的一位大三学生告诉我们,他从大一在具身行业的实验室实习,一直在做具身行业的数据infra。


他说,现在具身行业的高效果数据需求非常大,而公司不愿意投入大量成本,采集到的数据都需要人工标注,非常费时费力。他特别想做的是开发一套自动标注的系统,能解决当前具身数据的痛点。


03

小米罗福莉:AI已经能自己训练自己


小米集团大模型负责人罗福莉在论坛上提到,Fable 5的能力提升并不是突然跃迁,而是Scaling持续推进后的阶段性结果。她推测Fable 5的参数规模可能达到当前最强开源模型数倍的水平。


具体来看,一是预训练规模仍在扩大,二是Test-Time Scaling和强化学习继续投入大量算力,三是训练数据正在从互联网文本,扩展到人与Agent共同产生的合成数据。


也就是说,模型能力还没有走到尽头,现有几条扩展路径仍然有效。


其次,对于大模型能力增长曲线,她不倾向于简单判断为线性或指数增长。她认为模型进步往往带有“涌现”特征,在不同Scaling路径、不同发展阶段,都可能出现能力突然外延的情况,因此很难用一条固定曲线描述。


尤其在AI自进化上,她观察到顶尖模型已经不再只是“执行工具”。上一代模型更擅长在明确指令下完成任务,而今天的模型正在进入更抽象的科研流程,例如设计验证指标、检查执行结果、规划实验流程。它和顶尖研究员的主要差距,仍在于提出有价值、可验证的问题,以及判断哪些研究应当及时停止。


这种“研究品味”和判断力,目前仍是人类优势,但更强模型叠加递归自我改进式Agent系统,正在逼近这些边界。


谈到语言模型与世界模型的路径,她认为两者正在并行推进,但现阶段语言模型更快,因为数字世界更容易还原智能诞生的环境,也更适合通过 Agent 系统和奖励机制驱动模型自我提升。世界模型仍处早期,关键挑战在于能否构建高效的世界模拟器,尤其是长上下文场景下的视频生成效率。


最后罗福莉还给年轻人提出建议,她强调不要只被焦虑牵着走,而要保持探索欲和好奇心,并尽可能深入使用最新大模型。通过大量试错,年轻人才能逐渐形成自己的判断力、研究品味和产品品味。


04

具身的“AlphaGo时刻”


人形机器人距离ChatGPT时刻还有多远?银河通用的CTO王鹤在多个分会场不止一次提到,具身智能行业即将迎来自己的Alphago时刻,和ChatGPT时刻。


2016年,AlphaGo战败李世石,标志着AI在专精领域首次超越人类。GPT系列定义了scaling up范式,推动自然语言处理走向通用,2022年ChatGPT3的出现被视为大语言通用模型的里程碑节点。


王鹤将银河通用的人形机器人打网球,定义为具身智能的“AlphaGo时刻”。


今年3月16日,银河通用发布了全球首个、也是目前唯一的人形机器人和人打网球视频,无任何遥控或人为介入。发布后1.5小时内,视频获得180万次观看。


Elon Musk看到后,发贴表示“insane(震惊)”,当然也有不少人不相信是真的,说这是AI生成的假视频。王鹤解释说,网球同时要求low-level的全身精确控制和high-level的策略决策,是少数能将两者紧密耦合的运动项目,这对人形机器人的挑战非常大,因此具有标志性意义。


大部分机器人无法实现的转笔运动,王鹤也称之为AlphaGo时刻。2023年,英伟达曾在仿真器中展示灵巧手转笔,但迟迟未能迁移到真实世界。银河通用目前是全球唯一实现真实世界灵巧手转笔的团队。


王鹤认为,背后的核心逻辑是,银河通用提出的参照人类神经系统的Astro Brain(银河星脑)架构,同时拥有通用大脑和通用小脑,并通过脑桥异步协作。


迈向机器人ChatGPT时刻的两大关键技术,王鹤给出了量化定义。预训练后zero-shot成功率达到70%~80%,同时具备快速普及部署的可及性(accessibility)。


王鹤还描绘了人形机器人终极发展途径。一旦突破ChatGPT时刻,将快速向AI Agent(A1)发起冲刺。当到达A1时刻,人形机器人将以“手机的量、汽车的价格、大模型的智能”进入千行百业,这将是10万亿美元级别的市场,标志着第四次工业革命的到来。


05

语言仍是最有智能水平的模态


今年上半年,世界模型几乎是创投圈最火爆的概念,也是业内最争执不下的方向。资本的逻辑,不排除投资人们害怕错过的心理因素,但最重要的是业内逐渐形成共识。要想实现AGI,AI必须理解世界物理规则,不少世界模型的研究者们认为,世界模型的认知拐点即将到来。


从视频生成模型,到李飞飞的空间大模型,以及图灵奖得主杨立昆的抽象表征为代表的世界模型,技术路线上从未收敛。李飞飞最经典的案例是,人类婴儿在学会说话之前,已经在通过触摸、爬行、观看、跌倒等,持续建立理解物理世界的直觉。她的核心观点之一是,真正理解物理世界的智能并非语言,而是发生在空间里。


智源大会上,自变量机器人联合创始人兼CTO王昊做了半个多小时分享,他的主题是《事件驱动的世界模型:迈向通用具身智能的预训练》。这与李飞飞的观点恰好相反。他认为当前真正具有智能水平的模态只有语言,而且语言是人与模型交流的唯一方式。


相比当前按照帧为单位训练模型方式,他认为,应从语言、视觉和动作的多模态中抽象出“事件”,作为最合适的尺度单位。


人类用语言描述事件,视觉在事件边界处发生关键变化,动作则通过事件改变世界。事件是语言、视觉和动作的交汇点。业内VLA模型视觉做的不好,以视频为基础做模型,语言又很难对齐。他认为,这里面的关键是大家没有在同一尺度下,对齐语言、视觉和动作等多模态数据。


也因此,事件驱动的世界模型不是把语言贴到视频上,而是用语言帮助模型找到世界变化的结构。这意味着,语言在世界模型中的角色正在发生变化。它在推理时,可以利用这种结构把语言能力迁移到其他模态上。


06

AI驱动药物发现


在AI进化方向上,AI辅助生命科学的研究一直是提升人类福祉的最好方式之一。


今年的智源大会上,智源研究院把“悟界”作为一条重要产品线推到台前。如果说“悟界·Brainμ1.0”对应的是大脑信号的理解与生成,“悟界·Physis-v0.1”指向物理世界的建模,那么“悟界·OpenComplex2.5”切入的则是生命科学里最现实,也最难啃的一块,就是AI药物发现。


OpenComplex2.5是下一代AI驱动药物发现模型,核心目标是解决固有无序蛋白(IDP)的动态构象解析问题。传统药物研发很大程度依赖蛋白质的稳定结构,但IDP的麻烦在于,它不是一个安静站着等人观察的靶点,而是高度灵活、持续变化的动态对象。


这类蛋白和神经退行性疾病等复杂疾病关系密切,却长期因为结构难以捕捉、成药路径不清晰,成为药物发现中的难题。


智源给出的解法,是用可泛化、物理真实的端到端全原子分布建模,去描述IDP在不同状态下的构象分布。换句话说,它不是只给出一个静态答案,而是试图捕捉蛋白在真实物理约束下的多种可能状态。这也和今年智源大会从“悟道”走向“悟界”的大方向一致,AI不只是做符号运算,而是要进入物理世界和生命系统,理解那些连续、复杂、动态变化的对象。


从药物研发流程看,OpenComplex2.5的另一个看点,是用单一模型覆盖四个关键环节,口袋识别、反向筛选、结构预测和亲和力预测。它既可以在靶点蛋白中寻找潜在可成药口袋,也可以为一个给定化合物反向匹配潜在靶点。既能预测蛋白-配体复合物的三维结构,也能估算结合亲和力变化趋势,服务于先导化合物筛选和优化。


这意味着,OpenComplex2.5并不是一个单点工具,更像是智源试图搭建的AI制药基础模型。它的价值在于把原本分散、耗时、依赖经验的若干关键步骤,放进一个更统一的模型框架中处理。对于那些过去因为结构高度动态而难以被传统方法处理的靶点,它至少提供了一条新的技术路径,先让AI更接近生命系统本身的复杂性,再谈发现新的药物机会。


07

年轻人一定坚持自己相信的


AI已经很大程度上渗透到各行各业的工作流里,最明显的是程序员。开发过程中,几乎不用人类写一行代码,成为圈内共识。AI在进化的同时,人和AI的不断交互,会如何影响我们人类本身。


尤其在高校,年轻的学生们同样也在各种学术探索和研究中频繁使用AI。伦敦大学学院博士、里斯托大学助理教授杨梦月感到担忧的一个问题是,年轻的学生能否真正驾驭AI?


杨梦月认为,AI虽然能快速输出大量内容,但会形成很明显的分层。基础知识扎实的学生,会借助AI迅速登上科研的高峰,而基础不扎实的学生,太相信AI,很容易会被AI误入歧途。


她提醒年轻的研究员,在AI能力越来越强时,不要放弃自身对基础知识的构建,要学会培养自己对科研的感知能力和信念。这一点能很好帮助你分辨方向,避免被AI误导。


中国工程院士王坚说,年轻人一定坚持自己相信的。“当你想做一件事情的时候,别人怎么想,别人什么感受,在一定意义上是不重要的。”


最重要的是你在做事情前,有没有那么大的决心。当你不断坚定自己相信的事情,不停说自己会坚持,也如实坚定自己会做的事情,资源和人自然会找上来。


文章来自于"白鲸实验室",作者 "刘培"。

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案