Z Tech｜对话童晟邦：师从LeCun与谢赛宁，视觉大模型的下一站是World Model

AI资讯 2026-05-25 15:10

+7751 阅读

01 推荐语

即将结束博士生涯的童晟邦，正站在另一个起点上。

这位在纽约大学读博期间同时师从Yann LeCun与谢赛宁的年轻研究者，最近宣布加入由Yann LeCun推动的AI研究与创业计划AMI Labs，而谢赛宁则是AMI的联合创始人兼首席科学官。

过去几年里，他同时与Yann LeCun和谢赛宁合作，他形容，两位导师几乎代表了两种截然不同、却又高度互补的研究风格。

Peter提到，LeCun是一种“非常有能量”的导师，“在他身边的人都会感受到那种现实扭曲力场，不仅讨论研究方向，甚至会直接指出初始化方式、learning rate或decay策略的问题，给出非常具体的技术建议。”而谢赛宁则几乎系统性地训练了他如何做研究：设计实验、管理复杂变量、组织论文、把一个研究问题真正推进下去。“这是一个非常幸运的经历，很难想象还会有一个更好的导师组合。”

除了导师的支持，童晟邦选择加入AMI的一个重要原因是：这是一个“值得去赌一次”的机会。“有些问题理论上大家可能想过很多，但最终还是需要有人真正去做一次实验。如果不尝试，就永远不会知道答案。”

在他看来，相比已经高度成熟的大模型公司，AMI更像一家带有强烈研究理想主义色彩的机构：vision-first、强调长期使命感，愿意在高不确定性的方向上持续投入。“AMI真正想做的，不是沿着现有技术路径继续优化，而是重新定义问题本身，构建更强的world model与视觉基础智能系统。”

这恰好对应着他多年来最核心的研究兴趣：是否可能构建一个同时具备理解与生成能力的统一通用视觉模型。

这个问题背后，是当前视觉AI领域最核心的一道分野。长期以来，视觉理解与生成像两条彼此独立的技术路线：前者强调高维语义表征，后者依赖diffusion等生成模型中的低维潜空间，两者之间甚至存在天然张力。但Peter始终不相信它们应该被彻底割裂。他不断尝试验证另一种可能：在合适的建模方式下，理解与生成可以彼此促进。

在他看来，一个真正好的general model，本质上应该已包含大部分下游任务所需的能力。数据当然重要，但更关键的是，一个足够强大的通用模型能显著提升任务之间的迁移能力。未来多模态真正重要的变化，未必是出现某一个“killer task”，而是越来越多的问题会被统一重写为state transition或simulation问题。

在这次对话中，我们从童晟邦的成长经历出发，聊到他在纽约大学同时师从Yann LeCun与谢赛宁的研究体验，也聊到他为何选择加入AMI Labs。更重要的是，我们试图沿着他的研究脉络，去理解他对于world model、统一视觉模型，以及“理解与生成是否能够融合”这一核心问题的长期思考。

以下为Z Potentials与童晟邦的对话实录，经编辑修改，Enjoy！

嘉宾介绍：童晟邦（Peter Tong）是AMI Labs的Member of Technical Staff，主要研究方向是multimodal model和world model。他2026年PhD毕业于NYU，老师是谢赛宁和Yann LeCun， 2023年毕业于UC Berkeley，专业是应用数学，计算机科学和统计。他的相关成果发表于ICLR、 ICML、 CVPR、 NeurIPS等会议, 并多次获得oral、 spotlight paper。

Z Highlights

Yann LeCun整体上是一个偏high-level的导师，很有能量，身边的人都能感受到他的那种“现实扭曲力场”。他并不是只停留在宏观层面，在很多时候也会给出非常具体、甚至偏底层的建议。Saining Xie是另一种风格。他整体更加hands-on，也更关注具体实现和研究过程中的细节。在和他合作的初期，他会非常系统地指导我如何做研究，包括实验设计、论文写作等具体能力。

关键不在于选择某一种固定范式，而在于：是否能够以尽可能“无损”的方式处理视觉信息，并同时支持理解与生成。

我个人比较认同“柏拉图式表征”（platonic representation）的观点——也就是说，对于同一个世界，我们可以有不同的观察方式和描述方式，但底层应该存在一个更加统一的表征空间。

机器人或动作相关能力，本质上更像是通用模型能力的一种下游展开，而不是一个完全独立的范式。最终的核心问题仍然是：我们如何构建一个足够强大的通用world model。

world model可以被定义为一种state-transition建模系统。更具体来说，它的核心是预测“状态如何演化”。

最核心的问题不是action，而是模型是否能够正确建模自然世界中最常见的状态转移过程。而这种natural transition，实际上是现实世界中最普遍、数据量最大的模式。

我选择加入AMI的原因其实很直接：一方面是导师和团队对我非常支持，没有任何外部压力；另一方面，我认为这个方向本身是一个值得“去赌一次”的机会。有些问题在理论上大家可能已经想过很多，但最终还是需要有人真正去做一次实验，去验证它是否成立。如果不去尝试，就永远不会知道。

很多方向可以做得更激进一些，甚至是重新定义问题本身，而不仅仅是沿着现有路径优化。

02 从数学到视觉，从马毅到LeCun：童晟邦的研究路径自述

ZP：可以简单介绍一下，从本科到博士这一阶段，你是如何逐步进入视觉与多模态研究方向的？

童晟邦：我的背景相对有一些跨文化和跨学科。我在国内读到初中，之后去了澳洲完成中学阶段的学习，后来进入伯克利读本科。刚进入伯克利时，我的专业其实是数学。但伯克利的计算机科学氛围非常强，可以说是一种接近“文化现象”的存在。在这样的环境下，很多人都会自然地接触并深入计算机相关的内容。我自己在更早之前也有一些信息学竞赛的背景，因此在接触计算机之后，很快就发现自己对这个方向非常感兴趣，随后逐步转向计算机科学，并在这个过程中开始参与科研项目。

在本科阶段，我有机会进入马毅老师的团队进行科研实习，并持续参与相关研究两年多。这段经历对我影响很大，也为后续申请博士打下了基础。后来在申请博士的过程中，由于此前已经有一定的合作基础，包括与Yann LeCun团队的学术联系，整体过程相对顺利，最终进入NYU，系统性地开展视觉与多模态方向的研究。

ZP：在你之前的研究经历中，你先后接触过不同风格的导师和研究环境。能否谈一谈，马毅老师与Yann LeCun在研究理念或风格上的异同，以及这对你产生了怎样的影响？

童晟邦：我觉得他们在很多方面是非常相似的，尤其是在研究理念上，两个人都有非常强的信念感。这一点对我的影响其实是很大的。在我刚开始做研究的时候，就处在一个具有很强研究哲学的环境里，自然而然会受到这种“相信某个方向”的力量影响。这种氛围和很多其他研究组是不太一样的。从个性上来说，他们也有相似之处，这可能也是他们能够成为很好的朋友的原因之一。整体而言，他们都属于那种对核心问题有坚定判断的人。

马毅老师我个人是非常认同他的很多判断的。他的思考方式非常敏锐，在我接触过的老师中，他属于非常“sharp”的一类。很多他早期提出或尝试的方向，可能在当时看起来时机还不成熟，但过一段时间再回头看，会发现这些思路其实和后来一些重要工作的形式是高度一致的。例如我们之前做的一些工作，当时未必被广泛接受，但从现在的视角来看，与后来的技术路径在形式上已经非常接近。从这个角度来说，他很多核心判断是具有前瞻性的。当然，在具体执行层面，不同团队和研究者之间会有差异。作为资深研究者，导师本身不可能直接参与所有实验细节，更多还是在方向上进行引导，而具体实现过程中，不同人的理解和执行方式也会有所不同。但整体来看，无论是他之前在闭环系统上的探索，还是“白盒”相关工作，或者后续的一些研究方向，我认为在逻辑上是高度自洽的，并且随着时间推移，逐渐被证明是有价值的。

ZP：刚才提到的一些具体研究方向，比如闭环系统或白盒建模，从现在的视角来看，你认为它们与当前主流的一些训练范式之间是否存在某种联系？

童晟邦：是的，其实可以看到一些比较明显的联系。例如闭环的建模方式，从形式上来看，与现在一些训练目标在本质上是相通的，比如都可以理解为以压缩（compression）作为核心目标。再比如“白盒”相关的工作，本质上可以理解为一种展开（unrolling）的过程，比如通过one-step gradient descent（即通过单步梯度更新来近似模型优化过程的一种展开方式）来构建网络结构。这种one-step的展开形式，其实和后来一些方法在结构上是非常类似的。所以从这个角度来看，很多早期的探索在今天是可以被重新理解的，它们在方法论层面是具有一致性的，也进一步说明当时的一些研究思路是有其合理性的。

ZP：那在你早期的研究经历中，是什么契机让你逐渐确定计算机视觉是一个值得长期投入的方向？

童晟邦：其实有一定的“路径依赖”。马毅老师本身是一个资深的视觉研究者，所以我一开始进入这个领域时，就是从视觉方向起步的。最早会接触一些基础的数据集，比如CIFAR、MNIST等，当时因为算力和资源限制，还很难直接做ImageNet规模的任务，但整体上就是一直在处理图像相关的问题。从更宏观的环境来看，当时伯克利本身也是一个视觉研究氛围比较浓厚的地方。尤其是在我刚开始做研究的阶段，大模型和语言模型还没有像现在这样爆发（那时候距离ChatGPT出现还有一段时间），如果随机进入一个实验室做科研，大概率接触到的也是视觉相关方向。

另一方面，也有一些比较个人的原因。我本身会觉得视觉问题更直观、更有趣，对这些“图像世界”的问题天然有兴趣。更重要的是，在马毅老师以及后来的研究环境中，我逐渐接触到一种关于“智能本质”的思考方式。他们会更关注一个更底层的问题：什么是intelligence，以及它是否仅仅局限于语言或符号系统。在这个框架下，视觉被认为是理解世界的重要组成部分，甚至在某些层面上，智能是超越语言的。这种理念对我影响很深，我也逐渐认同这种看法。所以到后来，即使多模态成为一个更大的方向，我依然非常认同视觉本身的价值，并且愿意持续在这个方向上投入。

ZP：这是一个挺有意思的点。很多从事视觉研究的人，往往在生活中也会有摄影或绘画等相关兴趣，你在这方面有类似的爱好吗？

童晟邦：其实反而没有。我知道很多做视觉的人会喜欢摄影或者绘画，但我自己在这些方面并不擅长，比如拍照或者画画都做得不太好。不过我确实很喜欢去欣赏这些东西，比如艺术、画面美感等。虽然不一定能创造出来，但会对这些“美”的表达有比较强的感受力。

从研究角度来说，我觉得视觉这个领域有一种比较“优雅”的特质。它的复杂度是处在一个很有意思的区间：不像一些理论计算机科学问题那样极端复杂，但同时又具有足够的挑战性。这种“复杂但不过载”的特性，会让人觉得既有挑战性，又有探索的乐趣，这也是我一直比较享受做视觉研究的原因之一。

03 在 NYU 的博士修炼：两位理想的导师组合，以及TPU 的“痛苦与收获”

ZP：在NYU的博士阶段，你分别与Yann LeCun和Saining Xie两位导师合作。能否从研究风格和合作体验的角度，谈一谈他们各自的特点，以及对你产生的影响？

童晟邦：两位导师的风格其实非常不同，但正是这种差异，对我的成长帮助很大。先说Yann LeCun。他整体上是一个偏high-level的导师，很有能量，在他身边的人都能感受到他的那种“现实扭曲力场”。

让我印象很深的点是，他并不是只停留在宏观层面，在很多时候也会给出非常具体、甚至偏底层的建议。比如我刚开始和他合作的时候，讨论一些实验细节，他会直接指出初始化方式（initialization）或者学习率（learning rate）设置的问题，甚至会建议具体的调整方向，比如如何做衰减（decay)。这些其实是比较细节的实现问题，但他的判断往往是非常准确的，我回去验证之后，很多时候确实是对的。所以在和他的交流中，会同时存在两种层次：一方面是比较宏观的讨论，比如研究方向和整体思路；另一方面，在某些关键点上，他又能给出非常具体的技术反馈。这种“高低结合”的方式，其实让我觉得非常特别。

另外一个对我影响很大的方面，是他在情绪和信念层面的支持。有一次我在做TPU相关的基础设施调试时，遇到了很大的困难，几乎到了崩溃的状态。当时和他开会，他分享了早期构建深度学习基础设施的经历，比如他和团队当年搭建类似Torch这类系统的过程，并鼓励我继续坚持，把当前的基础设施问题真正解决掉。这对我来说是一个非常重要的节点。那次交流之后，我明显感觉自己可以重新投入到问题中，继续往下推进。这种既有技术判断、又能在关键时刻给予信心支持的能力，我觉得是非常难得的。从这个角度来说，他不仅在方向层面给予指导，在情绪层面也提供了很强的支持。

相比之下，Saining Xie是另一种风格。他整体更加hands-on，也更关注具体实现和研究过程中的细节。在和他合作的初期，他会非常系统地指导我如何做研究，包括实验设计、论文写作等具体能力。比如在论文写作方面，他会讲很多非常细致的方法和标准，这对我帮助非常大，也让我在短时间内有了明显提升。另外一个让我印象很深的，是他在做研究时的系统性。我记得他当时展示过一个非常大的实验表格，用来管理和追踪实验（类似MAE项目中的实验设计方式），这种对实验过程的结构化管理，对我影响很大。后来我也逐渐把这些方法应用到自己的研究中。可以说，我很多研究技能，尤其是如何系统地推进实验、如何形成研究方法论，是在和Saining合作的过程中逐步建立起来的。

整体来看，我是在这样一个“组合式”的环境中成长起来的：Saining提供了非常扎实的细节训练和方法论指导，而Yann则在方向、判断以及信念层面给予支持。这种组合对我来说是非常理想的。我觉得这是一个非常幸运的经历——很难想象一个更好的导师组合。

ZP：在NYU期间，你的大部分研究都是基于TPU完成的。能否分享一下，当时为什么选择TPU，以及它在你的研究过程中带来了哪些关键影响？另外，从现在的视角来看，当时遇到的一些问题是否已经得到改善？

童晟邦：最初选择TPU，其实是一个比较现实的原因——缺乏GPU资源。在学校环境下，我们能够使用的GPU数量是非常有限的，比如早期最多也只是共享一个包含8张A100的节点，很难支撑更大规模的实验。相比之下，Google在当时提供了比较充足的TPU算力资源，这使得我们有机会尝试更大规模的模型和任务。

但与此同时，也带来了一个非常直接的问题：这些算力“很难用”。当时TPU的生态还不成熟，几乎所有开源的codebase默认都是为GPU设计的，无法直接在TPU上运行。从数据读取、存储方式到通信机制，TPU都有一套完全不同的体系，需要重新适配。最开始甚至会遇到一些非常基础但难以排查的问题，比如在不同规模的集群下，数据读写行为不一致，有的配置只能读不能写，或者无法同时进行读写操作。这些问题在文档中几乎没有说明，需要完全依靠试错来理解。

在具体实践中，我们当时尝试做一个多模态模型，需要基于已有代码进行改造。一条路径是基于JAX从头实现，另一条是将已有的PyTorch代码迁移到TPU上。我主要选择了后者，但这也意味着需要依赖Torch/XLA（即PyTorch在TPU上的适配版本）。当时Torch/XLA本身还不稳定，很多功能“可以写但未必能正常运行”。我印象很深的是，甚至在最开始的环境配置阶段，就花了大量时间排查问题。例如仅仅是安装相关依赖就卡了很久，原因是不同TPU实例类型与PyTorch版本之间存在兼容性问题，但这些信息并没有清晰的指引。

在模型真正跑起来之后，又遇到了更底层的挑战。其中一个核心问题是：TPU采用的是static graph（静图）执行方式，而PyTorch默认是dynamic graph（动态图）。这在计算机视觉任务中会带来很大困难，因为视觉数据本身具有不确定性，比如每个batch中图像的位置、数量甚至分辨率都可能不同，这种动态性与TPU的静态编译机制是冲突的。后来我们逐步探索出一些解决方案，比如通过固定输入结构、对数据进行padding等方式，将动态问题转化为“伪静态”形式，使其能够在TPU上编译执行。但在当时，这些都需要从零开始摸索。

另一个比较棘手的问题是调试体验。TPU在报错时往往无法提供明确的错误定位信息，不像标准的PyTorch可以精确到具体代码行。很多时候只能通过大量的logging（打印）和逐步排查来定位问题，这个过程非常低效。此外，还会遇到一些“隐蔽性很强”的问题。例如某些底层kernel（如SDPA attention实现）是针对GPU优化的，但被深度封装在上层库（如Hugging Face的diffusers）中，在TPU上运行时会直接报错，但表面上看不到具体原因。这类问题往往需要逐层追踪调用链才能定位。

尽管如此，当这些问题被逐步解决之后，TPU的优势也非常明显。尤其是在可扩展性（scalability）方面，从少量设备扩展到大规模集群是非常顺畅的，这对大模型训练是非常重要的。从整体来看，这段经历对我帮助很大。一方面提升了我在系统层面和基础设施方面的能力，另一方面也锻炼了在复杂环境下解决问题的能力。如果从现在的视角来看，一些问题确实有所改善，比如工具链更完善、算力获取方式更多元。但在TPU生态，尤其是Torch/XLA相关的部分，很多问题仍然没有完全解决，尤其是在复杂系统问题的自动化处理方面，仍然需要大量人工介入。例如我们当时也讨论过，是否可以构建一个专门的benchmark，用来测试模型在这类复杂系统问题中的泛化能力，因为这些问题往往既类似已有经验，又存在关键差异，对推理能力要求很高。但现实情况是，目前即使是比较先进的coding agent，在处理这类问题时仍然容易出现错误判断，比如给出在当前环境中并不存在的解决方案。因此在TPU相关开发中，人工参与仍然是不可替代的。

ZP：除了基础设施层面的挑战，我们也想进一步了解你在NYU期间的研究工作。能否从整体上梳理一下，从早期工作到后续unified model探索，这一系列研究是如何逐步展开的？

童晟邦：整体来看，我的研究路径是一个逐步从“理解问题”到“构建统一范式”的过程。最早的一项工作，是在多模态模型刚开始出现的时候。当时类似GPT-4V还没有完全开放，市面上已经有一些具备视觉能力的模型，但实际体验下来，会发现它们在很多看似简单的任务上表现并不好。我当时是以一个比较“初学者”的视角去思考这个问题：为什么这些模型在一些直观任务上会失败？这也促成了我第一阶段的工作，核心是去分析这些模型的问题来源。在这个过程中，我们发现一个关键点：视觉表征（representation）非常重要。即使在大模型时代，如何有效地表示视觉信息，仍然是一个核心问题。

在此基础上，第二阶段的工作开始转向：如果问题在于表征，那么我们如何构建更好的visual representation，以及如何更好地构建多模态模型。这也对应到后续的一些工作，例如围绕理解（understanding）展开的研究。一方面，我们尝试改进视觉表征；另一方面，也在探索如何构建更大规模的多模态模型。在这个阶段，我有一个很明显的感受：相比于之前（大约2022年之前），计算机视觉研究的范式发生了明显变化。过去的研究更像是在一个“封闭环境”中进行，有固定的数据集（如ImageNet）、明确的任务（分类、检测、分割等），问题定义相对清晰。但随着大模型的发展，很多问题变得更加开放。数据不再是固定的，任务边界也变得模糊，整个研究范式开始向“开放世界”（open-ended setting）转变。在这个过程中，我们也观察到一个现象：虽然过去学界在自监督学习上投入了大量精力，但在当下的多模态大模型中，很多系统仍然依赖类似CLIP这样的语言监督表征。

因此我们进一步探究，这背后到底是方法的问题，还是数据的问题。通过大规模实验，我们发现，方法固然重要，但更大的瓶颈其实在于数据——如何获取和利用更大规模、更高质量的视觉数据，成为关键。这也让我逐渐意识到，在很多问题上，性能的提升更像是数据问题和可扩展性问题，而不完全是算法设计本身的问题。这对我的研究方向产生了很大影响。

在此之后，我开始更有意识地寻找一些“更本质”的问题，也就是那些不仅仅依赖数据规模，而是在方法层面仍然存在不确定性的方向。这也促使我逐渐转向生成相关的研究，以及所谓的unified model：是否可以构建一个模型，同时具备理解和生成的能力。其中一个核心问题是：在语言领域，理解与生成通常被认为是相互促进的，但在视觉领域，这两者的关系并不完全清晰，甚至存在一定张力。围绕这个问题，我们开展了一系列工作（例如metamorph等），去验证理解与生成之间的关系。整体结论是：在合适的建模方式下，这两者是可以相互促进的，而不是完全对立的。

进一步来看，一个关键挑战在于表征形式的不一致：理解任务通常依赖高维表征（high-dimensional representation），而生成任务（例如基于diffusion的模型）往往依赖低维潜空间（low-dimensional latent space），这会带来一定的不匹配。因此，后续的一系列工作（例如RAE相关）开始尝试用统一的高维表征来同时支持理解与生成，从而减少这种不匹配。

再往后一步，我们开始思考一个更大的问题：如果这些能力可以统一，那么是否可以进一步构建一个超越传统语言模型的系统？这也与我一开始读博时所认同的一种理念有关，即通过大规模数据去学习世界模型。现实世界中存在大量未被充分利用的数据，这些数据可能是实现更强智能的重要基础。在这个方向上，我们尝试构建一种“beyond language”的模型，希望能够利用更丰富的多模态数据，去学习比纯语言模型更全面的能力。从另一个角度来看，这条研究路径也和资源条件的变化有关。随着可用算力逐渐增加，从最初共享少量GPU，到后续能够使用更大规模的TPU资源，再到进入工业界后拥有更充足的计算资源，这些都使得探索更长期、更高风险的方向成为可能。

04 对统一模型的系统性思考：高维表征、World Model 与 State Transition

ZP：在生成模型的技术路径上，目前存在不同选择，例如基于VAE的低维潜空间方法，以及直接在pixel space或高维表征上建模。不同研究团队的偏好也有所不同。你如何看待这些路径？对于统一模型（unified model）来说，哪种设计更合理？

童晟邦：我其实不太认为这些路径是彼此冲突的。从更本质的角度来看，它们解决的是同一个问题：我们如何去表示视觉信息。如果从这个角度出发，我更倾向于用“高维”和“低维”来划分，而不是简单区分VAE和pixel space。VAE的核心思想是做压缩，把原始视觉信息映射到一个更低维的潜空间中，比如从原始图像的高维表示压缩到更小的latent space。这种方式在生成任务中是有优势的，因为建模成本更低、效率更高。但这种压缩是有代价的——信息损失。对于理解任务来说，这种信息丢失会带来性能上的限制，这是一个比较自然的结果。

相比之下，高维表征（无论是raw pixel还是类似RAE这类方法）本质上是尽可能保留信息。可以理解为，它们更接近视觉信号的“原始形态”，因此在表达能力上更完整。从这个角度来看，我个人会更倾向于高维表征，因为它在原则上更接近“无损建模”的目标。当然，高维方法也带来了新的挑战。例如在RE相关工作中，一个核心问题是：现有的视觉encoder（例如基于DINO或其他自监督模型训练得到的表征），在设计之初并不是为了生成任务服务的。也就是说，这些表征在结构上并没有被“组织好”（well-organised），因此在用于生成或重建时，会出现一些质量问题。

所以在我看来，关键问题并不是“是否使用高维”，而是：如何构建一个更有结构的高维表征，使其同时适用于理解和生成。如果这个问题能够解决，那么无论是生成、理解还是编辑，都可以在同一个表征空间中更自然地完成。再往前看一步，如果算力足够强，其实直接在raw pixel上建模也没有问题。本质上pixel space和高维latent在维度上是相近的，它们都属于高维建模范式。在这种情况下，如果模型本身具备足够能力去学习有效表征，那么甚至不需要显式设计额外的表征，模型可以在训练过程中自行学习出更优的中间表征。实际上，在diffusion模型中也可以看到这一点：模型中间层（intermediate layers）的表征质量，往往优于输入本身，无论输入是pixel、VAE latent还是其他形式。

因此，从整体上来看，我会认为这是一个目标导向的问题。关键不在于选择某一种固定范式，而在于：是否能够以尽可能“无损”的方式处理视觉信息，并同时支持理解与生成。这也是为什么我个人会更倾向于高维表征，而不是低维压缩路径。

ZP：从 2022 年前后开始，视觉领域的任务范式发生了明显变化：从传统的segmentation、detection，逐渐转向 VQA 以及基于语言模型的视觉理解任务；而近期又出现了以generation为核心的方向，例如通过生成任务来组织视觉表征。你认为下一阶段的视觉模型会走向哪里？是否必然会与机器人或action结合？

童晟邦：我认为这是一个基本上不可避免的发展方向。如果看机器人领域的演进，可以发现一个比较清晰的趋势：从早期的视觉-语言-动作模型（VLA），到更统一的模型架构，再到尝试用单一模型解决多种任务，本质上都是在朝“统一建模”的方向发展。其中一个关键点在于：当我们拥有一个足够强大的基础模型时，很多能力是可以自然涌现的。我个人比较认同“柏拉图式表征”（platonic representation）的观点——也就是说，对于同一个世界，我们可以有不同的观察方式和描述方式，但底层应该存在一个更加统一的表征空间。如果模型能够在这样的表征空间中进行大规模预训练，它就会天然具备较强的泛化能力。在这个框架下，所谓的“动作条件建模”（action conditioning），其实只是这一问题的自然延伸。

我们在之前一些关于“beyond language”的工作中也做过类似的探索。在导航类world model的实验设定中，我们观察到一个非常明确的现象：相比于直接训练一个面向动作条件的模型，更有效的方式是先训练一个通用模型，然后再通过动作相关的数据去引导模型理解行为模式。这个过程其实非常类似于语言模型的发展路径。早期我们会区分聊天模型、代码模型等不同类型，但实践证明，真正关键的是一个强大的预训练语言模型，再结合高质量的后训练数据，对其进行针对性适配。因此，在我看来，机器人或动作相关能力，本质上更像是通用模型能力的一种下游展开，而不是一个完全独立的范式。最终的核心问题仍然是：我们如何构建一个足够强大的通用world model。

ZP：你如何定义world model？这个概念与你所理解的版本，与Yann LeCun或其他研究者的定义是否有差异？

童晟邦：在我的理解中，world model可以被定义为一种state-transition建模系统。更具体来说，它的核心是预测“状态如何演化”。如果存在action，那么可以理解为state + action → next state；如果没有显式action，那么action可以被隐式地理解为时间推进或状态自然演化。从这个角度看，本质问题是：模型是否能够学习世界的状态转移规律。例如在一个游戏环境中，state可以包括画面信息、血量、武器状态等。而在真实世界中，最自然的state形式其实就是图像或视频。因此，world model可以理解为对视觉世界中state transition的建模。

ZP：也就是说，你更强调的是对自然状态转移的建模能力，而action只是一个增强因素？

童晟邦：是的。如果模型能够理解自然世界中的因果与动态规律，例如“下雨前会有云层变化”“物体松手会掉落”，那么当我们引入action时，这些能力可以自然迁移。举一个简单例子：在训练数据中，模型已经见过“物体被放开后下落”的大量视频片段。那么当我们把问题改写为action形式，例如“请松手”，本质上仍然是在调用同一个state transition规律。因此，从根本上来说，最核心的问题不是action，而是模型是否能够正确建模自然世界中最常见的状态转移过程。而这种natural transition，实际上是现实世界中最普遍、数据量最大的模式。

ZP：在你的world model理解中，3D是否是一个核心组成部分？你如何看待显式3D建模与隐式学习之间的关系？

童晟邦：我先说明一下，这部分只是个人观点，不代表任何机构或团队。我认为3D在本质上类似于“语法”之于语言的作用，它决定了世界如何被组织和运行。一个好的world model，本质上一定隐含了对三维世界结构的理解。但我个人并不倾向于显式去追求3D建模。更准确地说，我更倾向于“隐式3D”（implicit 3D）。原因在于，从2D或video出发，通过大规模数据学习，本身就可以逼近3D结构。实际上，很多现有工作已经证明这一点，例如以DINO或MAE作为初始化，再接3D任务头，本质上已经可以获得较强的3D理解能力。因此，3D更适合作为一种评估或代理任务（proxy task），用来衡量模型的world model能力，而不是必须显式建模的目标。

从数据角度来看，这也符合“bitter lesson”的逻辑。2D图像和视频数据的规模远远大于3D数据，而且获取成本极低；相比之下，显式3D数据的采集是昂贵且难以扩展的。因此更合理的路径是：从2D或video学习，再用3D作为约束或评估信号。举一个类比来说，大语言模型在训练语料中并不会大量显式学习“语法规则”，但最终却自然学会了语法。同样地，如果world model足够强，3D结构会自然涌现，而不是需要显式设计。

ZP：如果从更宏观的multimodal任务角度来看，目前很多任务仍然停留在VQA或基础生成阶段。那么你认为下一阶段能够真正形成规模化应用的multimodal任务会是什么？

童晟邦：这是一个非常好的问题，我自己也一直在思考。回顾语言模型的发展，其实一开始大家也在争论：是否应该为coding、math等任务设计专门模型，还是应该拆分成不同系统。但事实证明，一个足够强的general model，可以通过不同的训练方式自然覆盖这些能力。视觉领域我认为也会走向类似路径。关键问题不在于“设计什么新任务”，而在于是否可以构建一个足够强的world simulator。如果有了这样的模型，很多任务会自然被重新表达。

一个比较直观的例子是gaming。几乎任何任务都可以被重新表述为一个“游戏环境中的状态转移问题”：你定义state、action，然后模型学习transition。在这种设定下，一个足够强的world model，本质上就会成为一个general-purpose game engine。甚至很多看似无关的任务，也可以被重写为这种形式。比如物理交互、规划问题，甚至一些工具使用任务，都可以被映射为state transition过程。

再举一个更现实的例子，比如做PPT。在传统流程中，这是一个手动编辑任务；但在语言模型环境中，它可以被转化为生成式任务，比如通过工具调用或代码生成完成。我在做答辩的时候，甚至直接用Claude Code来生成slides，本质上就是把任务重新表达成模型可以处理的形式。因此，我认为未来multimodal的关键不是“新增某个killer task”，而是：越来越多的任务会被统一重写为state transition或simulation问题。当这一点成立时，一个强大的world model就可以覆盖大量现有任务空间。

05 新的职业起点：为什么放弃其他选择，加入AMI？

ZP：在博士阶段结束时，你其实有不少不错的去向选择。在这些机会中，你最终选择加入AMI，背后的核心判断标准是什么？有没有一些关键因素是决定性的？

童晟邦：整体来看，有几个比较核心的考量。首先是一个比较重要的前提，我的导师并没有对我的去向施加限制，这让我可以相对自由地做判断。其次，在方向上，我希望进入一个真正重视视觉和多模态的环境，因此在筛选过程中也排除了不少选项。

AMI给我的印象是一个非常“激进”的团队——它愿意在一些高不确定性的方向上进行大规模投入。我认为在视觉和多模态领域，如果希望取得突破，是需要做出这种“大的技术押注”的。这类研究不仅对技术要求高，同时也极其依赖算力、资金以及长期资源投入。从成本角度来看，其复杂度在某些阶段甚至不低于语言模型。相比之下，即使是一些非常优秀的机构，也未必会在这些方向上进行如此激进的投入。而AMI从一开始就明确选择了这样的路径，这一点对我来说是非常有吸引力的。

我觉得首先AI这件事情本身是非常有意思的，我也很开心能够和一群很优秀的人一起做这件事。AMI整体上是一个vision-heavy的公司,或者更准确说是vision-first的方向，大家的共识是：智能系统的很多核心能力，本质上是从视觉世界中涌现出来的。我选择加入AMI的原因其实很直接：一方面是导师和团队对我非常支持，没有任何外部压力；另一方面，我认为这个方向本身是一个值得“去赌一次”的机会。有些问题在理论上大家可能已经想过很多，但最终还是需要有人真正去做一次实验，去验证它是否成立。如果不去尝试，就永远不会知道它是否可以成立。

我非常认同AMI的一个点是，它从一开始就是带着“mission”在做事情的。很多方向可以做得更激进一些，甚至是重新定义问题本身，而不仅仅是沿着现有路径优化。我们目前很多研究，其实在不同层面上都在指向同一个方向：尝试构建更强的world model和视觉基础智能系统。

ZP：关于未来的路径，你更倾向于先构建general model，再扩展到具体任务（top-down），还是从具体任务出发逐步泛化（bottom-up）？

童晟邦：我是非常坚定的top-down（general to specific）路线。我认为一个好的general model，本质上应该已经包含了大部分下游任务所需要的能力。当然，数据在这个过程中仍然非常重要，但关键在于：general model能够显著提升下游迁移能力（transferability）。例如在不同应用场景中，一个足够强的基础模型可以显著降低任务设计成本，并提高整体系统能力上限。因此我认为核心问题是：如何定义一个“好的general model”。这本身就需要一个足够好的proxy evaluation体系，用来衡量模型是否真正具备泛化能力。很多问题其实都是从这里开始的。

ZP：你觉得现在视觉/视觉语言模型领域还有哪些还没有被解决的问题？哪些是可以继续被benchmark或者重新定义的方向？

童晟邦：我觉得这个问题问得特别好，因为我自己每天也在问同样的问题：到底还有什么没被解决。如果具体讲，我觉得很多传统视觉人物其实已经做得非常好了。比如目标检测、图像分割、甚至一部分视觉推理任务，在“数据足够 + 计算足够”的条件下，其实已经接近被解决。但真正还没有被解决的问题，我觉得主要集中在长时间序列理解和连续场景建模。比如一个很典型的例子：你让模型看一个人跳绳，然后问“他跳了几下”，这个到今天其实还是很难稳定做对的。再比如“球在哪个杯子下面”这种持续状态变化的跟踪，本质上模型很容易丢失状态。这些问题的核心不在于单帧理解，而在于连续状态的跟踪能力和长期记忆与信息保持能力。

ZP：所以你觉得视觉的范式正在从single-turn走向continuous interaction？

童晟邦：对，我觉得这是一个非常本质的变化。现在大部分视觉的使用方式其实还是single-turn的：就是你拍一张照片或者一段短视频，然后问一个问题，比如“这是什么”。但真实世界不是这样的，真实世界是长期存在的状态流，是不可预测的。比如一个更现实的场景是：你会问“我十分钟前钥匙放在哪里了”，但你甚至不知道该回看哪一段视频。你需要的是一个持续记录 + 可检索 + 可推理的记忆系统。所以未来视觉一定会走向交互，它会长期存在于人的生活环境中，而不是一次性问询。

ZP：那现在主要的瓶颈是什么？

童晟邦：我觉得有两个核心问题。第一个是评测体系仍然不足。很多长时序、持续输入的问题，其实还没有被很好地定义出来，因此模型缺乏明确的优化目标。第二个是模型能力本身还不够。一旦把上下文拉长，就会出现一系列系统性问题，比如上下文容量不够、信息无法持续更新，以及记忆机制不稳定等。更本质的问题在于：我们还没有真正搞清楚“记忆”到底应该如何定义，以及它在视觉系统中应该以什么形式存在、如何被实现。

ZP：但视频理解已经发展很多年了，但在产品中似乎还没有真正落地？

童晟邦：对，这也是我觉得比较遗憾的一点。到目前为止，视频理解这一能力，其实还没有在主流应用中真正上线，比如像ChatGPT或Claude这样的产品里，你很难看到一个持续的视频理解体验。但我不认为这是“没有需求”，而是“我们还没有真正把它做出来”。如果未来有类似智能眼镜、Vision Pro这样的设备，再加上隐私问题能够被妥善解决，视觉能力是完全有可能成为一个持续存在的智能助手的。

举个例子：你的眼睛其实已经“看过”所有的文档，一个足够强大的模型，理论上可以直接帮你调取这些信息。你不再需要去“找文件”，而是可以直接“询问你的记忆系统”。

再比如一些更生活化的场景：帮你记住朋友的生日；帮你记录并回忆你最喜欢的食物；在你犹豫选择时提供决策辅助，这些能力都会显著提升日常生活的效率和体验。

ZP：所以本质上是人与人工智能之间的“上下文对齐”问题？

童晟邦：对，我觉得可以这样理解。核心问题在于：我们能不能更完整地记录和表达一个人的上下文信息，并将其有效地对齐给人工智能系统。在数字世界中，其实已经开始出现这样的趋势，比如一些个人系统已经在记录用户的决策过程和行为轨迹。但在现实世界中，我们仍然缺少一层关键能力——对多模态信息的持续记录与整合。也就是说，一个真正的智能助手，不只是回答问题，而是能够持续理解你的环境、行为和状态，并长期与你共存。

请注意，此次访谈内容已经过精心编辑，并得到了童晟邦的认可。我们也欢迎读者通过留言互动，分享您对本访谈的看法。

文章来自于 "Z Potentials"，作者 "Z Potentials"。

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI 3D建模

【开源免费】LGM是一个AI建模的项目，它可以将你上传的平面图片，变成一个3D的模型。

项目地址：https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用：https://replicate.com/camenduru/lgm