Z Tech|对话童晟邦:师从LeCun与谢赛宁,视觉大模型的下一站是World Model

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
Z Tech|对话童晟邦:师从LeCun与谢赛宁,视觉大模型的下一站是World Model
2026-05-25 15:10

Z Tech|对话童晟邦:师从LeCun与谢赛宁,视觉大模型的下一站是World Model


01 推荐语


即将结束博士生涯的童晟邦,正站在另一个起点上。


这位在纽约大学读博期间同时师从Yann LeCun与谢赛宁的年轻研究者,最近宣布加入由Yann LeCun推动的AI研究与创业计划AMI Labs,而谢赛宁则是AMI的联合创始人兼首席科学官。


过去几年里,他同时与Yann LeCun和谢赛宁合作,他形容,两位导师几乎代表了两种截然不同、却又高度互补的研究风格。


Peter提到,LeCun是一种“非常有能量”的导师,“在他身边的人都会感受到那种现实扭曲力场,不仅讨论研究方向,甚至会直接指出初始化方式、learning rate或decay策略的问题,给出非常具体的技术建议。”而谢赛宁则几乎系统性地训练了他如何做研究:设计实验、管理复杂变量、组织论文、把一个研究问题真正推进下去。“这是一个非常幸运的经历,很难想象还会有一个更好的导师组合。”


除了导师的支持,童晟邦选择加入AMI的一个重要原因是:这是一个“值得去赌一次”的机会。“有些问题理论上大家可能想过很多,但最终还是需要有人真正去做一次实验。如果不尝试,就永远不会知道答案。”


在他看来,相比已经高度成熟的大模型公司,AMI更像一家带有强烈研究理想主义色彩的机构:vision-first、强调长期使命感,愿意在高不确定性的方向上持续投入。“AMI真正想做的,不是沿着现有技术路径继续优化,而是重新定义问题本身,构建更强的world model与视觉基础智能系统。”


这恰好对应着他多年来最核心的研究兴趣:是否可能构建一个同时具备理解与生成能力的统一通用视觉模型。


这个问题背后,是当前视觉AI领域最核心的一道分野。长期以来,视觉理解与生成像两条彼此独立的技术路线:前者强调高维语义表征,后者依赖diffusion等生成模型中的低维潜空间,两者之间甚至存在天然张力。但Peter始终不相信它们应该被彻底割裂。他不断尝试验证另一种可能:在合适的建模方式下,理解与生成可以彼此促进。


在他看来,一个真正好的general model,本质上应该已包含大部分下游任务所需的能力。数据当然重要,但更关键的是,一个足够强大的通用模型能显著提升任务之间的迁移能力。未来多模态真正重要的变化,未必是出现某一个“killer task”,而是越来越多的问题会被统一重写为state transition或simulation问题。


在这次对话中,我们从童晟邦的成长经历出发,聊到他在纽约大学同时师从Yann LeCun与谢赛宁的研究体验,也聊到他为何选择加入AMI Labs。更重要的是,我们试图沿着他的研究脉络,去理解他对于world model、统一视觉模型,以及“理解与生成是否能够融合”这一核心问题的长期思考。


以下为Z Potentials与童晟邦的对话实录,经编辑修改,Enjoy!


嘉宾介绍:童晟邦(Peter Tong)是AMI Labs的Member of Technical Staff,主要研究方向是multimodal model和world model。 他2026年PhD毕业于NYU,老师是谢赛宁和Yann LeCun, 2023年毕业于UC Berkeley,专业是应用数学, 计算机科学和统计。他的相关成果发表于ICLR、 ICML、 CVPR、 NeurIPS等会议, 并多次获得oral、 spotlight paper。


Z Highlights


  • Yann LeCun整体上是一个偏high-level的导师,很有能量,身边的人都能感受到他的那种“现实扭曲力场”。他并不是只停留在宏观层面,在很多时候也会给出非常具体、甚至偏底层的建议。Saining Xie是另一种风格。他整体更加hands-on,也更关注具体实现和研究过程中的细节。在和他合作的初期,他会非常系统地指导我如何做研究,包括实验设计、论文写作等具体能力。


  • 关键不在于选择某一种固定范式,而在于:是否能够以尽可能“无损”的方式处理视觉信息,并同时支持理解与生成。


  • 我个人比较认同“柏拉图式表征”(platonic representation)的观点——也就是说,对于同一个世界,我们可以有不同的观察方式和描述方式,但底层应该存在一个更加统一的表征空间。


  • 机器人或动作相关能力,本质上更像是通用模型能力的一种下游展开,而不是一个完全独立的范式。最终的核心问题仍然是:我们如何构建一个足够强大的通用world model。


  • world model可以被定义为一种state-transition建模系统。更具体来说,它的核心是预测“状态如何演化”。


  • 最核心的问题不是action,而是模型是否能够正确建模自然世界中最常见的状态转移过程。而这种natural transition,实际上是现实世界中最普遍、数据量最大的模式。


  • 我选择加入AMI的原因其实很直接:一方面是导师和团队对我非常支持,没有任何外部压力;另一方面,我认为这个方向本身是一个值得“去赌一次”的机会。有些问题在理论上大家可能已经想过很多,但最终还是需要有人真正去做一次实验,去验证它是否成立。如果不去尝试,就永远不会知道。


  • 很多方向可以做得更激进一些,甚至是重新定义问题本身,而不仅仅是沿着现有路径优化。


02 从数学到视觉,从马毅到LeCun:童晟邦的研究路径自述


ZP: 可以简单介绍一下,从本科到博士这一阶段,你是如何逐步进入视觉与多模态研究方向的?


童晟邦 我的背景相对有一些跨文化和跨学科。我在国内读到初中,之后去了澳洲完成中学阶段的学习,后来进入伯克利读本科。刚进入伯克利时,我的专业其实是数学。但伯克利的计算机科学氛围非常强,可以说是一种接近“文化现象”的存在。在这样的环境下,很多人都会自然地接触并深入计算机相关的内容。我自己在更早之前也有一些信息学竞赛的背景,因此在接触计算机之后,很快就发现自己对这个方向非常感兴趣,随后逐步转向计算机科学,并在这个过程中开始参与科研项目。


在本科阶段,我有机会进入马毅老师的团队进行科研实习,并持续参与相关研究两年多。这段经历对我影响很大,也为后续申请博士打下了基础。后来在申请博士的过程中,由于此前已经有一定的合作基础,包括与Yann LeCun团队的学术联系,整体过程相对顺利,最终进入NYU,系统性地开展视觉与多模态方向的研究。


ZP: 在你之前的研究经历中,你先后接触过不同风格的导师和研究环境。能否谈一谈,马毅老师与Yann LeCun在研究理念或风格上的异同,以及这对你产生了怎样的影响?


童晟邦我觉得他们在很多方面是非常相似的,尤其是在研究理念上,两个人都有非常强的信念感。这一点对我的影响其实是很大的。在我刚开始做研究的时候,就处在一个具有很强研究哲学的环境里,自然而然会受到这种“相信某个方向”的力量影响。这种氛围和很多其他研究组是不太一样的。从个性上来说,他们也有相似之处,这可能也是他们能够成为很好的朋友的原因之一。整体而言,他们都属于那种对核心问题有坚定判断的人。


马毅老师我个人是非常认同他的很多判断的。他的思考方式非常敏锐,在我接触过的老师中,他属于非常“sharp”的一类。很多他早期提出或尝试的方向,可能在当时看起来时机还不成熟,但过一段时间再回头看,会发现这些思路其实和后来一些重要工作的形式是高度一致的。例如我们之前做的一些工作,当时未必被广泛接受,但从现在的视角来看,与后来的技术路径在形式上已经非常接近。从这个角度来说,他很多核心判断是具有前瞻性的。当然,在具体执行层面,不同团队和研究者之间会有差异。作为资深研究者,导师本身不可能直接参与所有实验细节,更多还是在方向上进行引导,而具体实现过程中,不同人的理解和执行方式也会有所不同。但整体来看,无论是他之前在闭环系统上的探索,还是“白盒”相关工作,或者后续的一些研究方向,我认为在逻辑上是高度自洽的,并且随着时间推移,逐渐被证明是有价值的。


ZP: 刚才提到的一些具体研究方向,比如闭环系统或白盒建模,从现在的视角来看,你认为它们与当前主流的一些训练范式之间是否存在某种联系?


童晟邦是的,其实可以看到一些比较明显的联系。例如闭环的建模方式,从形式上来看,与现在一些训练目标在本质上是相通的,比如都可以理解为以压缩(compression)作为核心目标。再比如“白盒”相关的工作,本质上可以理解为一种展开(unrolling)的过程,比如通过one-step gradient descent(即通过单步梯度更新来近似模型优化过程的一种展开方式)来构建网络结构。这种one-step的展开形式,其实和后来一些方法在结构上是非常类似的。所以从这个角度来看,很多早期的探索在今天是可以被重新理解的,它们在方法论层面是具有一致性的,也进一步说明当时的一些研究思路是有其合理性的。


ZP: 那在你早期的研究经历中,是什么契机让你逐渐确定计算机视觉是一个值得长期投入的方向?


童晟邦其实有一定的“路径依赖”。马毅老师本身是一个资深的视觉研究者,所以我一开始进入这个领域时,就是从视觉方向起步的。最早会接触一些基础的数据集,比如CIFAR、MNIST等,当时因为算力和资源限制,还很难直接做ImageNet规模的任务,但整体上就是一直在处理图像相关的问题。从更宏观的环境来看,当时伯克利本身也是一个视觉研究氛围比较浓厚的地方。尤其是在我刚开始做研究的阶段,大模型和语言模型还没有像现在这样爆发(那时候距离ChatGPT出现还有一段时间),如果随机进入一个实验室做科研,大概率接触到的也是视觉相关方向。


另一方面,也有一些比较个人的原因。我本身会觉得视觉问题更直观、更有趣,对这些“图像世界”的问题天然有兴趣。更重要的是,在马毅老师以及后来的研究环境中,我逐渐接触到一种关于“智能本质”的思考方式。他们会更关注一个更底层的问题:什么是intelligence,以及它是否仅仅局限于语言或符号系统。在这个框架下,视觉被认为是理解世界的重要组成部分,甚至在某些层面上,智能是超越语言的。这种理念对我影响很深,我也逐渐认同这种看法。所以到后来,即使多模态成为一个更大的方向,我依然非常认同视觉本身的价值,并且愿意持续在这个方向上投入。


ZP: 这是一个挺有意思的点。很多从事视觉研究的人,往往在生活中也会有摄影或绘画等相关兴趣,你在这方面有类似的爱好吗?


童晟邦其实反而没有。我知道很多做视觉的人会喜欢摄影或者绘画,但我自己在这些方面并不擅长,比如拍照或者画画都做得不太好。不过我确实很喜欢去欣赏这些东西,比如艺术、画面美感等。虽然不一定能创造出来,但会对这些“美”的表达有比较强的感受力。


从研究角度来说,我觉得视觉这个领域有一种比较“优雅”的特质。它的复杂度是处在一个很有意思的区间:不像一些理论计算机科学问题那样极端复杂,但同时又具有足够的挑战性。这种“复杂但不过载”的特性,会让人觉得既有挑战性,又有探索的乐趣,这也是我一直比较享受做视觉研究的原因之一。


03 在 NYU 的博士修炼:两位理想的导师组合,以及TPU 的“痛苦与收获”


ZP: 在NYU的博士阶段,你分别与Yann LeCun和Saining Xie两位导师合作。能否从研究风格和合作体验的角度,谈一谈他们各自的特点,以及对你产生的影响?


童晟邦两位导师的风格其实非常不同,但正是这种差异,对我的成长帮助很大。先说Yann LeCun。他整体上是一个偏high-level的导师,很有能量,在他身边的人都能感受到他的那种“现实扭曲力场”。


让我印象很深的点是,他并不是只停留在宏观层面,在很多时候也会给出非常具体、甚至偏底层的建议。比如我刚开始和他合作的时候,讨论一些实验细节,他会直接指出初始化方式(initialization)或者学习率(learning rate)设置的问题,甚至会建议具体的调整方向,比如如何做衰减(decay)。这些其实是比较细节的实现问题,但他的判断往往是非常准确的,我回去验证之后,很多时候确实是对的。所以在和他的交流中,会同时存在两种层次:一方面是比较宏观的讨论,比如研究方向和整体思路;另一方面,在某些关键点上,他又能给出非常具体的技术反馈。这种“高低结合”的方式,其实让我觉得非常特别。


另外一个对我影响很大的方面,是他在情绪和信念层面的支持。有一次我在做TPU相关的基础设施调试时,遇到了很大的困难,几乎到了崩溃的状态。当时和他开会,他分享了早期构建深度学习基础设施的经历,比如他和团队当年搭建类似Torch这类系统的过程,并鼓励我继续坚持,把当前的基础设施问题真正解决掉。这对我来说是一个非常重要的节点。那次交流之后,我明显感觉自己可以重新投入到问题中,继续往下推进。这种既有技术判断、又能在关键时刻给予信心支持的能力,我觉得是非常难得的。从这个角度来说,他不仅在方向层面给予指导,在情绪层面也提供了很强的支持。


相比之下,Saining Xie是另一种风格。他整体更加hands-on,也更关注具体实现和研究过程中的细节。在和他合作的初期,他会非常系统地指导我如何做研究,包括实验设计、论文写作等具体能力。比如在论文写作方面,他会讲很多非常细致的方法和标准,这对我帮助非常大,也让我在短时间内有了明显提升。另外一个让我印象很深的,是他在做研究时的系统性。我记得他当时展示过一个非常大的实验表格,用来管理和追踪实验(类似MAE项目中的实验设计方式),这种对实验过程的结构化管理,对我影响很大。后来我也逐渐把这些方法应用到自己的研究中。可以说,我很多研究技能,尤其是如何系统地推进实验、如何形成研究方法论,是在和Saining合作的过程中逐步建立起来的。


整体来看,我是在这样一个“组合式”的环境中成长起来的:Saining提供了非常扎实的细节训练和方法论指导,而Yann则在方向、判断以及信念层面给予支持。这种组合对我来说是非常理想的。我觉得这是一个非常幸运的经历——很难想象一个更好的导师组合。


ZP: 在NYU期间,你的大部分研究都是基于TPU完成的。能否分享一下,当时为什么选择TPU,以及它在你的研究过程中带来了哪些关键影响?另外,从现在的视角来看,当时遇到的一些问题是否已经得到改善?


童晟邦最初选择TPU,其实是一个比较现实的原因——缺乏GPU资源。在学校环境下,我们能够使用的GPU数量是非常有限的,比如早期最多也只是共享一个包含8张A100的节点,很难支撑更大规模的实验。相比之下,Google在当时提供了比较充足的TPU算力资源,这使得我们有机会尝试更大规模的模型和任务。


但与此同时,也带来了一个非常直接的问题:这些算力“很难用”。当时TPU的生态还不成熟,几乎所有开源的codebase默认都是为GPU设计的,无法直接在TPU上运行。从数据读取、存储方式到通信机制,TPU都有一套完全不同的体系,需要重新适配。最开始甚至会遇到一些非常基础但难以排查的问题,比如在不同规模的集群下,数据读写行为不一致,有的配置只能读不能写,或者无法同时进行读写操作。这些问题在文档中几乎没有说明,需要完全依靠试错来理解。


在具体实践中,我们当时尝试做一个多模态模型,需要基于已有代码进行改造。一条路径是基于JAX从头实现,另一条是将已有的PyTorch代码迁移到TPU上。我主要选择了后者,但这也意味着需要依赖Torch/XLA(即PyTorch在TPU上的适配版本)。当时Torch/XLA本身还不稳定,很多功能“可以写但未必能正常运行”。我印象很深的是,甚至在最开始的环境配置阶段,就花了大量时间排查问题。例如仅仅是安装相关依赖就卡了很久,原因是不同TPU实例类型与PyTorch版本之间存在兼容性问题,但这些信息并没有清晰的指引。


在模型真正跑起来之后,又遇到了更底层的挑战。其中一个核心问题是:TPU采用的是static graph(静图)执行方式,而PyTorch默认是dynamic graph(动态图)。这在计算机视觉任务中会带来很大困难,因为视觉数据本身具有不确定性,比如每个batch中图像的位置、数量甚至分辨率都可能不同,这种动态性与TPU的静态编译机制是冲突的。后来我们逐步探索出一些解决方案,比如通过固定输入结构、对数据进行padding等方式,将动态问题转化为“伪静态”形式,使其能够在TPU上编译执行。但在当时,这些都需要从零开始摸索。


另一个比较棘手的问题是调试体验。TPU在报错时往往无法提供明确的错误定位信息,不像标准的PyTorch可以精确到具体代码行。很多时候只能通过大量的logging(打印)和逐步排查来定位问题,这个过程非常低效。此外,还会遇到一些“隐蔽性很强”的问题。例如某些底层kernel(如SDPA attention实现)是针对GPU优化的,但被深度封装在上层库(如Hugging Face的diffusers)中,在TPU上运行时会直接报错,但表面上看不到具体原因。这类问题往往需要逐层追踪调用链才能定位。


尽管如此,当这些问题被逐步解决之后,TPU的优势也非常明显。尤其是在可扩展性(scalability)方面,从少量设备扩展到大规模集群是非常顺畅的,这对大模型训练是非常重要的。从整体来看,这段经历对我帮助很大。一方面提升了我在系统层面和基础设施方面的能力,另一方面也锻炼了在复杂环境下解决问题的能力。如果从现在的视角来看,一些问题确实有所改善,比如工具链更完善、算力获取方式更多元。但在TPU生态,尤其是Torch/XLA相关的部分,很多问题仍然没有完全解决,尤其是在复杂系统问题的自动化处理方面,仍然需要大量人工介入。例如我们当时也讨论过,是否可以构建一个专门的benchmark,用来测试模型在这类复杂系统问题中的泛化能力,因为这些问题往往既类似已有经验,又存在关键差异,对推理能力要求很高。但现实情况是,目前即使是比较先进的coding agent,在处理这类问题时仍然容易出现错误判断,比如给出在当前环境中并不存在的解决方案。因此在TPU相关开发中,人工参与仍然是不可替代的。


ZP 除了基础设施层面的挑战,我们也想进一步了解你在NYU期间的研究工作。能否从整体上梳理一下,从早期工作到后续unified model探索,这一系列研究是如何逐步展开的?


童晟邦整体来看,我的研究路径是一个逐步从“理解问题”到“构建统一范式”的过程。最早的一项工作,是在多模态模型刚开始出现的时候。当时类似GPT-4V还没有完全开放,市面上已经有一些具备视觉能力的模型,但实际体验下来,会发现它们在很多看似简单的任务上表现并不好。我当时是以一个比较“初学者”的视角去思考这个问题:为什么这些模型在一些直观任务上会失败?这也促成了我第一阶段的工作,核心是去分析这些模型的问题来源。在这个过程中,我们发现一个关键点:视觉表征(representation)非常重要。即使在大模型时代,如何有效地表示视觉信息,仍然是一个核心问题。


在此基础上,第二阶段的工作开始转向:如果问题在于表征,那么我们如何构建更好的visual representation,以及如何更好地构建多模态模型。这也对应到后续的一些工作,例如围绕理解(understanding)展开的研究。一方面,我们尝试改进视觉表征;另一方面,也在探索如何构建更大规模的多模态模型。在这个阶段,我有一个很明显的感受:相比于之前(大约2022年之前),计算机视觉研究的范式发生了明显变化。过去的研究更像是在一个“封闭环境”中进行,有固定的数据集(如ImageNet)、明确的任务(分类、检测、分割等),问题定义相对清晰。但随着大模型的发展,很多问题变得更加开放。数据不再是固定的,任务边界也变得模糊,整个研究范式开始向“开放世界”(open-ended setting)转变。在这个过程中,我们也观察到一个现象:虽然过去学界在自监督学习上投入了大量精力,但在当下的多模态大模型中,很多系统仍然依赖类似CLIP这样的语言监督表征。


因此我们进一步探究,这背后到底是方法的问题,还是数据的问题。通过大规模实验,我们发现,方法固然重要,但更大的瓶颈其实在于数据——如何获取和利用更大规模、更高质量的视觉数据,成为关键。这也让我逐渐意识到,在很多问题上,性能的提升更像是数据问题和可扩展性问题,而不完全是算法设计本身的问题。这对我的研究方向产生了很大影响。


在此之后,我开始更有意识地寻找一些“更本质”的问题,也就是那些不仅仅依赖数据规模,而是在方法层面仍然存在不确定性的方向。这也促使我逐渐转向生成相关的研究,以及所谓的unified model:是否可以构建一个模型,同时具备理解和生成的能力。其中一个核心问题是:在语言领域,理解与生成通常被认为是相互促进的,但在视觉领域,这两者的关系并不完全清晰,甚至存在一定张力。围绕这个问题,我们开展了一系列工作(例如metamorph等),去验证理解与生成之间的关系。整体结论是:在合适的建模方式下,这两者是可以相互促进的,而不是完全对立的。


进一步来看,一个关键挑战在于表征形式的不一致:理解任务通常依赖高维表征(high-dimensional representation),而生成任务(例如基于diffusion的模型)往往依赖低维潜空间(low-dimensional latent space),这会带来一定的不匹配。因此,后续的一系列工作(例如RAE相关)开始尝试用统一的高维表征来同时支持理解与生成,从而减少这种不匹配。


再往后一步,我们开始思考一个更大的问题:如果这些能力可以统一,那么是否可以进一步构建一个超越传统语言模型的系统?这也与我一开始读博时所认同的一种理念有关,即通过大规模数据去学习世界模型。现实世界中存在大量未被充分利用的数据,这些数据可能是实现更强智能的重要基础。在这个方向上,我们尝试构建一种“beyond language”的模型希望能够利用更丰富的多模态数据,去学习比纯语言模型更全面的能力。从另一个角度来看,这条研究路径也和资源条件的变化有关。随着可用算力逐渐增加,从最初共享少量GPU,到后续能够使用更大规模的TPU资源,再到进入工业界后拥有更充足的计算资源,这些都使得探索更长期、更高风险的方向成为可能。


04 对统一模型的系统性思考:高维表征、World Model 与 State Transition


ZP: 在生成模型的技术路径上,目前存在不同选择,例如基于VAE的低维潜空间方法,以及直接在pixel space或高维表征上建模。不同研究团队的偏好也有所不同。你如何看待这些路径?对于统一模型(unified model)来说,哪种设计更合理?


童晟邦我其实不太认为这些路径是彼此冲突的。从更本质的角度来看,它们解决的是同一个问题:我们如何去表示视觉信息。如果从这个角度出发,我更倾向于用“高维”和“低维”来划分,而不是简单区分VAE和pixel space。VAE的核心思想是做压缩,把原始视觉信息映射到一个更低维的潜空间中,比如从原始图像的高维表示压缩到更小的latent space。这种方式在生成任务中是有优势的,因为建模成本更低、效率更高。但这种压缩是有代价的——信息损失对于理解任务来说,这种信息丢失会带来性能上的限制,这是一个比较自然的结果。


相比之下,高维表征(无论是raw pixel还是类似RAE这类方法)本质上是尽可能保留信息。可以理解为,它们更接近视觉信号的“原始形态”,因此在表达能力上更完整。从这个角度来看,我个人会更倾向于高维表征,因为它在原则上更接近“无损建模”的目标。当然,高维方法也带来了新的挑战。例如在RE相关工作中,一个核心问题是:现有的视觉encoder(例如基于DINO或其他自监督模型训练得到的表征),在设计之初并不是为了生成任务服务的。也就是说,这些表征在结构上并没有被“组织好”(well-organised),因此在用于生成或重建时,会出现一些质量问题。


所以在我看来,关键问题并不是“是否使用高维”,而是:如何构建一个更有结构的高维表征,使其同时适用于理解和生成。如果这个问题能够解决,那么无论是生成、理解还是编辑,都可以在同一个表征空间中更自然地完成。再往前看一步,如果算力足够强,其实直接在raw pixel上建模也没有问题。本质上pixel space和高维latent在维度上是相近的,它们都属于高维建模范式。在这种情况下,如果模型本身具备足够能力去学习有效表征,那么甚至不需要显式设计额外的表征,模型可以在训练过程中自行学习出更优的中间表征。实际上,在diffusion模型中也可以看到这一点:模型中间层(intermediate layers)的表征质量,往往优于输入本身,无论输入是pixel、VAE latent还是其他形式。


因此,从整体上来看,我会认为这是一个目标导向的问题。关键不在于选择某一种固定范式,而在于:是否能够以尽可能“无损”的方式处理视觉信息,并同时支持理解与生成。这也是为什么我个人会更倾向于高维表征,而不是低维压缩路径。


ZP: 从 2022 年前后开始,视觉领域的任务范式发生了明显变化:从传统的segmentation、detection,逐渐转向 VQA 以及基于语言模型的视觉理解任务;而近期又出现了以generation为核心的方向,例如通过生成任务来组织视觉表征。你认为下一阶段的视觉模型会走向哪里?是否必然会与机器人或action结合?


童晟邦 我认为这是一个基本上不可避免的发展方向。如果看机器人领域的演进,可以发现一个比较清晰的趋势:从早期的视觉-语言-动作模型(VLA),到更统一的模型架构,再到尝试用单一模型解决多种任务,本质上都是在朝“统一建模”的方向发展。其中一个关键点在于:当我们拥有一个足够强大的基础模型时,很多能力是可以自然涌现的。我个人比较认同“柏拉图式表征”(platonic representation)的观点——也就是说,对于同一个世界,我们可以有不同的观察方式和描述方式,但底层应该存在一个更加统一的表征空间。如果模型能够在这样的表征空间中进行大规模预训练,它就会天然具备较强的泛化能力。在这个框架下,所谓的“动作条件建模”(action conditioning),其实只是这一问题的自然延伸。


我们在之前一些关于“beyond language”的工作中也做过类似的探索。在导航类world model的实验设定中,我们观察到一个非常明确的现象:相比于直接训练一个面向动作条件的模型,更有效的方式是先训练一个通用模型,然后再通过动作相关的数据去引导模型理解行为模式。这个过程其实非常类似于语言模型的发展路径。早期我们会区分聊天模型、代码模型等不同类型,但实践证明,真正关键的是一个强大的预训练语言模型,再结合高质量的后训练数据,对其进行针对性适配。因此,在我看来,机器人或动作相关能力,本质上更像是通用模型能力的一种下游展开,而不是一个完全独立的范式。最终的核心问题仍然是:我们如何构建一个足够强大的通用world model。


ZP: 你如何定义world model?这个概念与你所理解的版本,与Yann LeCun或其他研究者的定义是否有差异?


童晟邦 在我的理解中,world model可以被定义为一种state-transition建模系统。更具体来说,它的核心是预测“状态如何演化”。如果存在action,那么可以理解为state + action → next state;如果没有显式action,那么action可以被隐式地理解为时间推进或状态自然演化。从这个角度看,本质问题是:模型是否能够学习世界的状态转移规律。例如在一个游戏环境中,state可以包括画面信息、血量、武器状态等。而在真实世界中,最自然的state形式其实就是图像或视频。因此,world model可以理解为对视觉世界中state transition的建模。


ZP: 也就是说,你更强调的是对自然状态转移的建模能力,而action只是一个增强因素?


童晟邦 是的。如果模型能够理解自然世界中的因果与动态规律,例如“下雨前会有云层变化”“物体松手会掉落”,那么当我们引入action时,这些能力可以自然迁移。举一个简单例子:在训练数据中,模型已经见过“物体被放开后下落”的大量视频片段。那么当我们把问题改写为action形式,例如“请松手”,本质上仍然是在调用同一个state transition规律。因此,从根本上来说,最核心的问题不是action,而是模型是否能够正确建模自然世界中最常见的状态转移过程。而这种natural transition,实际上是现实世界中最普遍、数据量最大的模式。


ZP:在你的world model理解中,3D是否是一个核心组成部分?你如何看待显式3D建模与隐式学习之间的关系?


童晟邦 我先说明一下,这部分只是个人观点,不代表任何机构或团队。我认为3D在本质上类似于“语法”之于语言的作用,它决定了世界如何被组织和运行。一个好的world model,本质上一定隐含了对三维世界结构的理解。但我个人并不倾向于显式去追求3D建模。更准确地说,我更倾向于“隐式3D”(implicit 3D)。原因在于,从2D或video出发,通过大规模数据学习,本身就可以逼近3D结构。实际上,很多现有工作已经证明这一点,例如以DINO或MAE作为初始化,再接3D任务头,本质上已经可以获得较强的3D理解能力。因此,3D更适合作为一种评估或代理任务(proxy task),用来衡量模型的world model能力,而不是必须显式建模的目标。


从数据角度来看,这也符合“bitter lesson”的逻辑。2D图像和视频数据的规模远远大于3D数据,而且获取成本极低;相比之下,显式3D数据的采集是昂贵且难以扩展的。因此更合理的路径是:从2D或video学习,再用3D作为约束或评估信号。举一个类比来说,大语言模型在训练语料中并不会大量显式学习“语法规则”,但最终却自然学会了语法。同样地,如果world model足够强,3D结构会自然涌现,而不是需要显式设计。


ZP: 如果从更宏观的multimodal任务角度来看,目前很多任务仍然停留在VQA或基础生成阶段。那么你认为下一阶段能够真正形成规模化应用的multimodal任务会是什么?


童晟邦 这是一个非常好的问题,我自己也一直在思考。回顾语言模型的发展,其实一开始大家也在争论:是否应该为coding、math等任务设计专门模型,还是应该拆分成不同系统。但事实证明,一个足够强的general model,可以通过不同的训练方式自然覆盖这些能力。视觉领域我认为也会走向类似路径。关键问题不在于“设计什么新任务”,而在于是否可以构建一个足够强的world simulator。如果有了这样的模型,很多任务会自然被重新表达。


一个比较直观的例子是gaming。几乎任何任务都可以被重新表述为一个“游戏环境中的状态转移问题”:你定义state、action,然后模型学习transition。在这种设定下,一个足够强的world model,本质上就会成为一个general-purpose game engine。甚至很多看似无关的任务,也可以被重写为这种形式。比如物理交互、规划问题,甚至一些工具使用任务,都可以被映射为state transition过程。


再举一个更现实的例子,比如做PPT。在传统流程中,这是一个手动编辑任务;但在语言模型环境中,它可以被转化为生成式任务,比如通过工具调用或代码生成完成。我在做答辩的时候,甚至直接用Claude Code来生成slides,本质上就是把任务重新表达成模型可以处理的形式。因此,我认为未来multimodal的关键不是“新增某个killer task”,而是:越来越多的任务会被统一重写为state transition或simulation问题。当这一点成立时,一个强大的world model就可以覆盖大量现有任务空间。


05 新的职业起点:为什么放弃其他选择,加入AMI?


ZP: 在博士阶段结束时,你其实有不少不错的去向选择。在这些机会中,你最终选择加入AMI,背后的核心判断标准是什么?有没有一些关键因素是决定性的?


童晟邦 整体来看,有几个比较核心的考量。首先是一个比较重要的前提,我的导师并没有对我的去向施加限制,这让我可以相对自由地做判断。其次,在方向上,我希望进入一个真正重视视觉和多模态的环境,因此在筛选过程中也排除了不少选项。


AMI给我的印象是一个非常“激进”的团队——它愿意在一些高不确定性的方向上进行大规模投入。我认为在视觉和多模态领域,如果希望取得突破,是需要做出这种“大的技术押注”的。这类研究不仅对技术要求高,同时也极其依赖算力、资金以及长期资源投入。从成本角度来看,其复杂度在某些阶段甚至不低于语言模型。相比之下,即使是一些非常优秀的机构,也未必会在这些方向上进行如此激进的投入。而AMI从一开始就明确选择了这样的路径,这一点对我来说是非常有吸引力的。


我觉得首先AI这件事情本身是非常有意思的,我也很开心能够和一群很优秀的人一起做这件事。AMI整体上是一个vision-heavy的公司,或者更准确说是vision-first的方向,大家的共识是:智能系统的很多核心能力,本质上是从视觉世界中涌现出来的。我选择加入AMI的原因其实很直接:一方面是导师和团队对我非常支持,没有任何外部压力;另一方面,我认为这个方向本身是一个值得“去赌一次”的机会。有些问题在理论上大家可能已经想过很多,但最终还是需要有人真正去做一次实验,去验证它是否成立。如果不去尝试,就永远不会知道它是否可以成立。


我非常认同AMI的一个点是,它从一开始就是带着“mission”在做事情的。很多方向可以做得更激进一些,甚至是重新定义问题本身,而不仅仅是沿着现有路径优化。我们目前很多研究,其实在不同层面上都在指向同一个方向:尝试构建更强的world model和视觉基础智能系统。


ZP: 关于未来的路径,你更倾向于先构建general model,再扩展到具体任务(top-down),还是从具体任务出发逐步泛化(bottom-up)?


童晟邦 我是非常坚定的top-down(general to specific)路线。我认为一个好的general model,本质上应该已经包含了大部分下游任务所需要的能力。当然,数据在这个过程中仍然非常重要,但关键在于:general model能够显著提升下游迁移能力(transferability)。例如在不同应用场景中,一个足够强的基础模型可以显著降低任务设计成本,并提高整体系统能力上限。因此我认为核心问题是:如何定义一个“好的general model”。这本身就需要一个足够好的proxy evaluation体系,用来衡量模型是否真正具备泛化能力。很多问题其实都是从这里开始的。


ZP 你觉得现在视觉/视觉语言模型领域还有哪些还没有被解决的问题?哪些是可以继续被benchmark或者重新定义的方向?


童晟邦 我觉得这个问题问得特别好,因为我自己每天也在问同样的问题:到底还有什么没被解决。如果具体讲,我觉得很多传统视觉人物其实已经做得非常好了。比如目标检测、图像分割、甚至一部分视觉推理任务,在“数据足够 + 计算足够”的条件下,其实已经接近被解决。但真正还没有被解决的问题,我觉得主要集中在长时间序列理解和连续场景建模。比如一个很典型的例子:你让模型看一个人跳绳,然后问“他跳了几下”,这个到今天其实还是很难稳定做对的。再比如“球在哪个杯子下面”这种持续状态变化的跟踪,本质上模型很容易丢失状态。这些问题的核心不在于单帧理解,而在于连续状态的跟踪能力和长期记忆与信息保持能力。


ZP: 所以你觉得视觉的范式正在从single-turn走向continuous interaction?


童晟邦 对,我觉得这是一个非常本质的变化。现在大部分视觉的使用方式其实还是single-turn的:就是你拍一张照片或者一段短视频,然后问一个问题,比如“这是什么”。但真实世界不是这样的,真实世界是长期存在的状态流,是不可预测的。比如一个更现实的场景是:你会问“我十分钟前钥匙放在哪里了”,但你甚至不知道该回看哪一段视频。你需要的是一个持续记录 + 可检索 + 可推理的记忆系统。所以未来视觉一定会走向交互,它会长期存在于人的生活环境中,而不是一次性问询。


ZP: 那现在主要的瓶颈是什么?


童晟邦 我觉得有两个核心问题。第一个是评测体系仍然不足。很多长时序、持续输入的问题,其实还没有被很好地定义出来,因此模型缺乏明确的优化目标。第二个是模型能力本身还不够。一旦把上下文拉长,就会出现一系列系统性问题,比如上下文容量不够、信息无法持续更新,以及记忆机制不稳定等。更本质的问题在于:我们还没有真正搞清楚“记忆”到底应该如何定义,以及它在视觉系统中应该以什么形式存在、如何被实现。


ZP: 但视频理解已经发展很多年了,但在产品中似乎还没有真正落地?


童晟邦  对,这也是我觉得比较遗憾的一点。到目前为止,视频理解这一能力,其实还没有在主流应用中真正上线,比如像ChatGPT或Claude这样的产品里,你很难看到一个持续的视频理解体验。但我不认为这是“没有需求”,而是“我们还没有真正把它做出来”。如果未来有类似智能眼镜、Vision Pro这样的设备,再加上隐私问题能够被妥善解决,视觉能力是完全有可能成为一个持续存在的智能助手的。


举个例子:你的眼睛其实已经“看过”所有的文档,一个足够强大的模型,理论上可以直接帮你调取这些信息。你不再需要去“找文件”,而是可以直接“询问你的记忆系统”。


再比如一些更生活化的场景:帮你记住朋友的生日;帮你记录并回忆你最喜欢的食物;在你犹豫选择时提供决策辅助,这些能力都会显著提升日常生活的效率和体验。


ZP: 所以本质上是人与人工智能之间的“上下文对齐”问题?


童晟邦 对,我觉得可以这样理解。核心问题在于:我们能不能更完整地记录和表达一个人的上下文信息,并将其有效地对齐给人工智能系统。在数字世界中,其实已经开始出现这样的趋势,比如一些个人系统已经在记录用户的决策过程和行为轨迹。但在现实世界中,我们仍然缺少一层关键能力——对多模态信息的持续记录与整合。也就是说,一个真正的智能助手,不只是回答问题,而是能够持续理解你的环境、行为和状态,并长期与你共存。


请注意,此次访谈内容已经过精心编辑,并得到了童晟邦的认可。我们也欢迎读者通过留言互动,分享您对本访谈的看法。


文章来自于 "Z Potentials",作者 "Z Potentials"。

1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群