Z Potentials｜对话Dyna Robotics联创York Yang：把机器人想象成大模型的下一站，是对具身智能最大的误解

AI资讯 2026-06-01 13:56

+9579 阅读

导语

连续创业的 York 开启了又一段新征程。过去十几年里，他几乎一直在做软硬一体系统：从计算机视觉、嵌入式，到后来的机器人。他的上一个创业项目——智能购物车 Caper AI，在 2021 年被 Instacart 以 3.5 亿美元收购。作为完整经历过无人零售从爆发到理性的创业者，York 身上最鲜明的是一种现实主义气质。这种气质也让他和很多创业者不同：哪怕聊到机器人、AGI 和火爆的世界模型，他都异常克制。

这种克制，也几乎贯穿了他对今天整个具身智能行业的所有判断。他很少会用“革命”、“颠覆”这种词。更多时候，他谈论的是参数 tuning、workflow、latency、memory、deployment、成本结构。

这和当下整个具身智能赛道形成了鲜明反差。过去一年，行业几乎都在围绕同一套叙事高速狂奔：Scaling Law、世界模型、机器人版 ChatGPT、机器人版 OpenAI、下一个 Figure。

但 York 对这些话题的讨论，都回到一个目标deployment。在他看来，“机器人真正进入客户现场并不难，真正难的是：它能不能长期待在那里，并持续创造价值。”公司内部甚至有一个专门的缩写——CPUDKUO，意思是 Customer Pays U but Don't Kick U Out。他会花大量时间思考：如何以deployment 为核心思考 generalization? 实验室里的 success rate，到客户现场怎样可以不失效了？机器人能完成某个动作与商业价值之间的gap是什么？怎样的机器人 demo，不只是“能 work 一次”，而可以实现“能长期 deployment”？

York 认为，对具身智能行业最大的误解，是很多人下意识地把机器人想象成了“大模型的下一个阶段”。“机器人不可能像大模型一样产生爆发式增长。”他说得很直接。

他的观点是，模型本质上是软件。只要模型能力足够强，第二天就可以触达全球几十亿已经存在的手机和电脑。但机器人不是。“机器人背后是真实世界。它涉及硬件制造、供应链、部署、维护、场景改造、电机、传感器、成本结构，以及无数现实世界里的复杂问题。它不是一句 prompt 就能 scale 的东西。”

这种认知，也决定了 York 新的创业项目 Dyna Robotics 与很多机器人公司的路线差异。当行业里不少公司希望先做一个“适配所有硬件”的通用模型时，York 却选择了另一条路径：先把一套硬件、一套模型，在真实场景里打磨到足够稳定、足够泛化。机器人行业早期，只靠软件和数据还不足以跨越不同硬件之间巨大的 physical gap。

Z Potentials｜对话Dyna Robotics联创York Yang：把机器人想象成大模型的下一站，是对具身智能最大的误解

采访里，他反复强调，真正重要的不是实验室里的泛化，而是机器人在真实 workflow 里的泛化。因为机器人真正进入现实世界之后，它面对的不再只是一个 task，而是一个完整 workflow。“我们现在更关注的是 whole employee workflow而不是 single task。比如机器人叠毛巾，很多 demo 里机器人能把毛巾叠得很好，但真实场景里，叠完以后怎么办？”

围绕场景的真实价值，Dyna Robotics构建了一套新的体系：速度、质量、ROI，以及能否长期 deployment。在他看来，真正的 deployment，必须是机器人已经形成完整商业闭环，能够长期创造价值，并最终让 ROI 成立。某种意义上，这也是 Dyna Robotics与很多机器人公司最核心的区别。

此次，Z Potentials 对话了 Dyna Robotics创始人 York，试图理解他身上这种“克制”的来源，以及在一个被宏大叙事主导的赛道里，一个现实主义创业者究竟如何做选择。

这个 ChatGPT 时刻到底怎么定义？是基础大模型到了某种智能程度就够了，还是要配上所有硬件、所有产业链都成熟，才能称之为 ChatGPT moment？我觉得现在行业里大多数人把这件事简化了，认为只要模型做到了就够了。但是从模型能做到真正落地，其实还有很长距离。

整个大模型发展到今天，真正可以说达到了一定 Scaling Law 的，可能只有语言模型。很多行业内的人并不认为视频模型已经达到了 Scaling Law。主要原因是视频模型的下游需求太广泛了。

做纯软件层、去适配所有硬件这件事，在任何行业里都是比较后期的事情。我不能说最终的终局会不会有一家公司确实把这件事做成功，但至少在前期，做这件事门槛非常高。最直接可以参考的是各种操作系统，只有当硬件有了一定统一性之后，操作系统才比较好做。

我经常跟大家举一个例子：想象把人类的大脑安到某些动物身上。这个实验没法做，但直觉上会觉得不太 make sense。猫狗是四条腿走路，人习惯两条腿走路，把人的大脑安到猫狗身上，它怎么工作？直觉上都会觉得不太可能。但因为没法做实验，所以也没法证明它不可能。机器人也是类似的。

我们现在依然更坚持 Video Model 这条路径，主要原因是从产业角度看，Video Model 的上游其实就是 video 预训练大模型。它们以视频信息为主，整个数据的 domain knowledge 和下游机器人更贴近。

我们内部有一个缩写叫 CPUDKUO——Customer Pays U but Don't Kick U Out。太多 demo 或 launch，大家只关心你是不是进去了，但你进去以后过几天就被踢出来，那进去的意义是什么？这就回到我们对 deployment 的定义：deployment 必须是实际产生 ROI 的东西，而不是把东西搬到客户那里放一下就叫 deployment。

我们在落地过程中明确感受到，reasoning 是非常重要的。没有 reasoning，靠纯模仿学习基本很难做到大规模落地——可以做几个 case，但做不到真正的规模化。所以 reasoning 会影响上游很多科研方向。

Z Potentials｜对话Dyna Robotics联创York Yang：把机器人想象成大模型的下一站，是对具身智能最大的误解

图注：从左到右分别是York, Lindon, Jason。

01 大模型的 Scaling Law 无法复刻到机器人，视频模型都没做到

ZP：回顾来看，你和 Lindon 上一段创业做的是智能购物车（Caper AI），后来卖给了 Instacart。那段经历里的什么让你们觉得下一件事应该是机器人？最初认为应该做这件事的 Moment 是什么？

York：最开始看机器人，出发点和上一家公司 Caper 有关。Caper 做的是智能购物车，本身就是一个软硬一体的项目，需要同时做硬件和软件，也涉及计算机视觉和深度学习，从技术栈上看和机器人有比较相似的地方。当时我们在思考，做完第一家公司之后，有哪些 know-how 可以 transfer 到下一家公司。

那时候我们也看过其他领域，比如 AR、VR，因为它们同样是软硬一体；也看过一些纯软件方向，比如 AI 相关的项目，但都觉得和我们的核心能力不够契合。真正开始做机器人，主要是因为在 2023 年底、2024 年初那个阶段，我们看到大模型对机器人带来了比较大的影响。当时像 ALOHA、UMI 相关的论文已经发布，我们在研究过程中已经能看到一些 early sign of life，能感觉到会有一波新技术推动机器人产业发生比较大的变化。上一代机器人更多还是固定式、以自动化为主的应用，但新一代机器人有了多模态大模型能力之后，可能可以做更多事情。

我们本身对硬件制造、从 0 到 1 做生产比较熟悉，同时在计算机视觉、感知层面也积累了不少经验，嵌入式系统方面也有基础。唯一比较缺的是机器人领域相关的 domain knowledge。所以当时我们有针对性地找了第三位 co-founder Jason，他一直在机器人领域做科研，研究比较深入。最后我们三个人对于一家机器人公司应该做成什么样达成了比较一致的判断——应该想办法去落地机器人的实际应用场景。于是我们就开始做了。

ZP：中间你们也考虑过 VR、XR 这些方向，后来没有继续做的原因是什么？

York：VR、AR、XR 这一整个领域我们没有做，是因为我们花了大约半年时间 part-time 在看 XR 相关的东西。当时想过一个 idea：那个阶段大家主要还是在卷以娱乐为主的设备，不管 VR 还是 AR，应用场景主要都是看电影、玩游戏。我们当时想的是，刚需更大的场景可能是办公，所以设想过一款把笔记本屏幕去掉、换成 AR 眼镜的产品，做一个更轻、更小巧灵活的新型笔记本。后来也有一些公司尝试了类似方向，但我们在看的过程中发现，最大的瓶颈是整个显示系统和沉浸式体验一直达不到预期。我们也和产业内主要做光学显示的厂商合作、看过他们的产品，但都没有达到我们想象中那种可以长期戴着眼镜、不看任何屏幕、直接在眼镜上办公的效果。其中存在算力不足、重量不够轻等多种限制。

后来我们觉得，创业公司去做这件事，能改变的东西不多。因为关键突破需要发生在上游的显示技术和芯片技术上，只有这些有了突破，我们才能做下游的产品。所以看了半年左右后，我们决定不做了。

我们本来的预期是在虚拟世界里做多屏——物理世界里要多屏就得买多个显示器摆在一起，虚拟世界理论上只要头一转就可以看到很多个屏幕。但实际做出来效果没有那么好。主要原因是眼镜整体的沉浸感不够，视野并不像人眼一样有超过 180 度的视角，沉浸体验比较差。当时看过几家供应商，视场角比较高的体验确实好很多，但也还是达不到我们的预期。

ZP：你们已经是第二次搭档创业了。这次整体合作状态、分工上，有没有明显提升或者更融洽？

York：到今天来看，还是会有一些变化。上一家公司我们有四个联合创始人，当时我主要负责软件，还有一位联合创始人主要负责硬件，另外两位分别负责 BD 和产品。我和 Lindon 这次其实承担了之前另两个人在做的事情。比如硬件这一块，最近都是我在看。我自己是非常软件背景的，但在 Caper 阶段也参与过一些硬件相关的工作，只是主要执行由硬件合伙人负责。所以这一次我们每个人都要承担更多。

从总体分工来说，变化并不算太大。Lindon 主要还是负责商务、fundraise、所有对外的事情，以及 talent acquisition 等人才相关工作。我主要负责工程执行，保证所有工程项目落地。这一次还多了一块更重的部分——科研，主要由我们的第三位合伙人 Jason Ma在带。Caper 的时候，科研部分相对弱一些，因为主要还是一个工程产品；当时也有科研，但基本归在一般 engineering 下面。现在 research 是比较独立、比较有规模地在做。整体来说，我们三个人分别覆盖了商务、工程和科研三大块。

ZP：具身智能现在特别热，你之前写过几篇文章说行业有泡沫。能不能展开讲讲你的思考？

York：所有新兴行业在早期肯定都有泡沫，因为大家的预期和实际能落地的东西之间会有比较大的鸿沟。公众的认知和真正做这件事的人对它的认知肯定非常不一样。我自己对泡沫的定义是，并不是所有超过预期的东西都叫泡沫。有些超过预期的东西，是可以在短时间内想办法赶上的。也就是说，我可以把预期放到前面一点，但只要跳一跳能摸得到，最后有一定方法在比较短的时间内赶上去，那我觉得这不算泡沫，只是把预期前置了。

真正能称为泡沫的，必须考虑时间成本。最简单的例子是无人驾驶行业，现在大家都公认早期有比较大的泡沫。早期有很多公司融了钱，到现在看 90% 可能都已经不存在了，剩下那一小部分经过了 10 年、15 年的打磨，才在今天有一定可能落地。最大的鸿沟就在于达到预期需要多长时间。如果这个时间差了 5 年、10 年，那当下就是有泡沫；但如果只有两三年，那不能称之为泡沫，只是预期前置，通过前置引入更多资本来加速产业发展。

我觉得现在具身智能领域比较大的泡沫，是大家非常想复刻大模型的成功。无人驾驶的路径大家并不想再走一遍，因为再熬 10 年、15 年太难受了，所以大家都在讲大模型的故事。我之所以觉得这里有泡沫，是因为大模型行业和智能机器人行业差得比较远。大模型是纯软件项目，它的分发、迭代都是非常软件周期的东西。所有和互联网软件相关的产品，包括大模型、早年的社交媒体，之所以能爆发式增长，核心原因是只要产品足够好，第二天就可以触达到几乎所有想触达的用户，因为用户已经有电脑和手机了。问题只在于他们愿不愿意用你的产品。

无人驾驶和机器人很不一样，因为它们依托于硬件本体。无人驾驶的好处是车本来就有，没有无人驾驶也能开，渠道本身已经设置好了。但机器人今天没有现成的渠道，没有任何成熟硬件已经摆在那里，让你只需要迭代软件、迭代模型就可以做很多事情。行业里现在提得最多的是“具身智能的 ChatGPT 时刻到底在哪里”。这个 ChatGPT 时刻到底怎么定义？是基础大模型到了某种智能程度就够了，还是要配上所有硬件、所有产业链都成熟，才能称之为 ChatGPT moment？我觉得现在行业里大多数人把这件事简化了，认为只要模型做到了就够了。这里面就有比较大的泡沫，因为大家觉得模型做到相对简单，但真正落地其实还有一定距离。

ZP：通往机器人 AGI 的路上，有没有类似大模型领域 coding 那样的关键任务？今天这个任务已经被大家找到了吗？

York：我们觉得还没有答案。现在看所有公司的发展路径，千奇百怪，什么样的都有。国内可能做得最多的是偏娱乐性质的机器人，不管是跳舞、武术，还是跑步、马拉松——虽然没有实际生产价值，但有一定娱乐价值。这个领域国内已经发展得挺好，产业链也赚了一些钱，是有真实效应的。美国的公司更像是 Figure 最近做直播展示的那种，就是去干活，去做人现在还在干的一些工作。这里面有各种各样的 use case，但也谈不上非常泛化。Figure 的机器人连续直播了三四天，基本一直干同一件事。这个事情并不需要人类级别的智能，如果把整个人形机器人换成一台机器加两个机械手，以现在的技术其实也能干。

所以并没有一个统一答案。像我们做叠衣服、叠毛巾，在很多人看来也是非常垂直的领域。大家都还在各自的垂直领域里找突破。最核心的问题是，机器人到底能不能像大模型一样，具有那么强的可扩展性，并且有一个明确可追的目标。我之前和一些大模型行业的朋友交流，他们其实认为，整个大模型发展到今天，真正可以说达到了一定 Scaling Law 的，可能只有语言模型。语言模型之外，现在还有一部分人在做视频模型，但很多行业内的人并不认为视频模型已经达到了 Scaling Law。主要原因是视频模型的下游需求太广泛了。

语言模型哪怕是 coding，本质上也还是语言。语言本身是一种相对单一的形态，是高度浓缩和抽象的一层信息，所以不管做 coding、math 还是其他任务，最后归纳出来的规律是一样的。但视频不一样。比如下游如果要生成动画片，动画片里很多物理定律是不需要遵循的——我们小时候看动画片，人可以飞起来，并不需要完全符合物理规律。但如果下游是电影或非常真实的视频，就需要很强的物理世界规律能力，也要保证看起来不假。视频的下游目标很多，导致视频模型最后也在找特定场景，保证在这些场景下有一定泛化性。

机器人肯定也会经历类似过程。需要先在一定场景下找到泛化性，在某些场景里做得足够出色，才有可能逐渐往外扩展。当然这件事还没有结论，因为视频模型都还没有走到那一步。我们只能说，机器人的发展路径可能更接近这个方向，但它绝对不会变成大语言模型那种纯语言形态，这一点是可以肯定的。至于最终会像什么样，现在还比较难判断。

02 早期不做适配所有硬件的模型

ZP：今天大家有很多路线，有人从模型切入，希望做一个类似 AGI 的模型适配所有硬件；也有人坚持把运动控制、硬件控制做好；像你们可能是两手抓。你们怎么看这些路径？为什么当时选择现在这条路径？

York：做纯软件层、去适配所有硬件这件事，在任何行业里都是比较后期的事情。我不能说最终的终局会不会有一家公司确实把这件事做成功，但至少在前期，做这件事门槛非常高。最直接可以参考的是各种操作系统，只有当硬件有了一定统一性之后，操作系统才比较好做。我们当时看 AR、VR 的时候，也想过做中间层、做一层操作系统，国内也有一些公司做这个事，我们也交流过。但最困难的是，AR、VR 直到今天也没有特别统一的形态。光 VR 和 AR 就是两个很不一样的形态，中间还有 MR、混合现实。在这样复杂的一套硬件形态上做统一化，本身就是比较难的事。

过去一代软件的思路是，每一行代码都要适配一个硬件，硬件越多越麻烦。现在做模型的人会觉得，不需要手动做这个事，让数据来解决问题——只要各个模态的数据足够多，希望模型能涌现出一定能力，看到一个新的模态也能处理。这个事现在很难证伪。我经常跟大家举一个例子：想象把人类的大脑安到某些动物身上。这个实验没法做，但直觉上会觉得不太 make sense。猫狗是四条腿走路，人习惯两条腿走路，把人的大脑安到猫狗身上，它怎么工作？直觉上都会觉得不太可能。但因为没法做实验，所以也没法证明它不可能。机器人也是类似的。

我们当时思考，如果要做所谓 cross-embodiment，聚合所有数据让它产生涌现，第一，至少要先看到行业里有人大概探索出了这个方向。但我们在 2023、2024 年看的时候，最核心的就是 Google RT-X 那套 cross-embodiment dataset。这个 dataset 出来之后，Google 自己做的工作效果都一般，很难看到跨模态数据之间相互产生了很大影响。后面也有一些新工作尝试证明它有一定效果，但没有质的飞跃。当然也有可能是数据量不够，数据量大到一定阶段所谓智能涌现就出现了，但至少目前还没有看到。

第二，我们在创业过程中尝试过很多不同硬件。早期用过不同供应商的手臂，有六轴、七轴的。光是人工去调每一种手臂的运动控制，就是非常困难的事情。现在很多公司展示的运动控制非常丝滑，但这些丝滑都需要非常精细的 tuning——需要调各种参数，并结合实际硬件设计，比如某个电机的质量、摩擦系数等，最终才能调到很丝滑的状态。如果每隔几天换一套系统，这件事非常难做。

所以我们当时觉得，如果要做 cross-embodiment，就势必要先采数据；要采数据就要解决控制问题；要解决控制问题就要去调这些参数。光这一整个流程，对创业公司来说就没有太多精力一直替换硬件。所以我们最后决定自己做一套硬件，专注在一套硬件上，把这套硬件和模型做得足够泛化，可以做各种各样的任务——这可能是早期更容易达成的目标。长期来看，cross-embodiment 到底有没有价值，需要等行业一起往前推进才能看清楚。

ZP：你们目前在 pre-train 这个环节做了哪些关键工作？

York：外部看我们，可能会觉得我们都在做一些比较单一的场景。但其实我们内部一直有自己一套核心的大模型。去年我们主要以 VLA 为主，到今年其实也在往 Video Model 转变。

我们的基础大模型涵盖了比较广的数据范围。外部看到的可能都是叠衣服、叠毛巾这样的场景，但在整个 pre-train 数据里，有各种各样的数据——包括准备食物、切菜、做早餐，也包括物流场景等，我们也做过一些数据采集。所以 pre-train model 本身是想往一个相对泛化的方向走。但怎么定义这个泛化还是比较难的，你也不可能采集到全世界所有任务的数据，只能在一定程度上让模型更泛化。

这里的泛化也不单纯指任务本身的泛化，不只是覆盖多少种任务，也包括同一个任务在不同场景下的泛化。比如叠毛巾这个任务在不同场景下的鲁棒性。有很多叠毛巾的 demo 在实验室里可以做得非常好，但把机器搬到另一个环境，光照条件变了，相机看到的场景变了，就可能做不了。我们已经验证过很多次，现在我们的模型在具体几个场景里基本都可以做到比较好的效果——在公司里采了大量数据之后，拿到实际场景里第一天就可以 work。所以我们在 pre-train 里采了很多不同场景的 diverse data，而不仅仅是不同任务的 diverse data。

ZP：现在大家也在争论模型架构，比如 VLA、Video Model，甚至更创新的架构。你们怎么看这些技术路线的分歧？数据是不是最重要的？

York：VLA 和 Video Model 本身的技术路径分歧，没有行业里现在宣传得那么大。最近有一种论调说 VLA 已经死了，后面全是 Video Model。但从我自己的看法来看，VLA 和 Video Model 在本质上并没有太大差别。很多人的 argument 是，VLA 里也可以把视频的每一帧图片都塞进去，把 token context window 做得很长，它也可以做 attention。

VLA 和 Video Model 在模型架构层面比较主要的区别，可能在于处理带时间顺序的视频信息时到底采用什么方式。Video Model 因为本身以 video 作为输入，所以原生带了很多时序信息，encode 在整个模型的 encoder 里。但这个 encoder 是否一定优于 VLA 里那种把所有东西都变成 token 后聚在一起的 transformer encoder？其实很难完全论证清楚。只能说根据经验，专门的 temporal structure 会比纯粹把所有东西往里塞做得更好一些。这和早年 CNN 与 RNN/LSTM 的区别有点像——所有时序信号也可以全部 flatten 成一长条往 CNN 里塞，也可以做，但后来大家发现 RNN、LSTM 在处理时序问题上，结构本身可能更有优势。不过当数据量足够大、数据质量足够高之后，这个 gap 会减小。

我们自己的测试也看到，Video Model 在早期会带来更多先验知识的帮助。比如拿一个预训练好的模型去做微调，不管是 loss 还是各种 metrics，同样数据量下 Video Model 都可以比 VLA 收敛更快，loss 下降更多。但到最后，单从 loss 层面看，同样数据集下差别不会特别大。

我们现在依然更坚持 Video Model 这条路径，主要原因是从产业角度看，Video Model 的上游其实就是 video 预训练大模型。它们以视频信息为主，整个数据的 domain knowledge 和下游机器人更贴近。相比之下，VLA 的上游更多是 VLM，虽然也有 video 或 image，但主要数据还是语言，和下游我们要做的 action 差别比较大。从最大化利用上游 pre-train 能力的角度看，Video Model 更合适。任何 video 大厂出了新的 Video Model，如果下游以 video 作为核心架构，就可以比较好地利用上游已经训练好的 domain knowledge。

一个最直接的例子是，当我们拿一个 VLM 把它变成 VLA，去做机器人 domain 的 pre-training 或 fine-tuning 时，可以看到刚开始训练时它生成的 action 非常 random，看不到模型对这些视频有什么理解，包括让它输出语言也很 random。但 Video Model 在 zero-shot 下，把一段机器人看到的视频塞进去，它就能直接生成相对合理的 future prediction。这说明 Video Model 本身能更好地把 knowledge transfer 过来。所以我们内部现在用得比较多的是 Video Model。

但 Video Model 远没有到结构终局。里面还有很多新的变化，包括生成部分到底怎么做、视频生成和 action 生成怎么关联起来，行业里还没有完全达成共识，大家都还在用各种方式尝试。还有一个问题是，过去的视频模型只生成视频，不产生语言。但从原理上说它也可以生成语言，因为输入里有语言，输出也可以有语言描述。这里还有比较大的技术 gap 没有 close。所以 VLA 和 Video Model 到底差别有多大，至少要等 Video Model 本身的结构发展到像 VLM、VLA 那么成熟之后，再在两个都成熟的状态下对比。否则现在相当于拿一个很成熟的东西和一个还在发展中的东西对比，并不能得出有效结论。

另一个 Video Model 比较有优势的地方，是可以用更多 video 的预训练形式，把机器人领域的一些 domain knowledge 预先放进去。过去做 VLA 的过程中，我们发现必须采非常高质量的数据。因为 VLA 需要一直 predict action，如果 action 数据不精准，用低质量数据去做 pre-train 会比较难。我们现在有很多 ego-centric 数据，质量其实不高，因为手部 pose 有时很难保证精度。但 Video Model 不一样——可以把 action head 去掉，单纯拿 video 做训练，目标只是生成 video。这样虽然没有学 action，但至少在机器人 domain 里，它看到的图像都是机械臂在动，会学到一些 domain knowledge。之后再拿高质量数据做微调会更方便。

从数据可扩展性上讲，我们觉得 video 形态能够容纳更多种类的数据。很多人会争论 teleop、UMI、ego-centric 这些数据到底哪个是终局。站在 Video Model 的角度，我们觉得都可以用，没有哪一个必须选择。到了 Video Model 之后，所有数据都可以整合在一起。

ZP：如果再把 action head 加回来，video 和 action 的对齐精度会不会有损失，或者做到那么精确？

York：这取决于怎么做。行业里有一种做法是做 IDM，也就是 inverse dynamics model。通俗来讲，就是先 predict 整个 video sequence，看到预期这一整段视频长什么样，然后通过这个视频反推运动学上的东西到底是什么样。比如你看到一个人的手往前，你其实知道 XYZ 坐标里某个方向在变化，比如 X 会变大，所以这是从视频倒推 action。这个倒推形式代表了为什么可以先做 video 预训练，然后 action 也能对上去——因为 video 里面包含了一定的 action 信息。

当然它会有一些不精确的地方，因为 video 毕竟是 2D 而不是 3D。最理想的状态肯定是做成纯 3D 的，那有了 video 就相当于有了 action，两者完全一致。但现在因为是 2D，问题在于怎么从 2D 转到 3D。现在很多主流工作都在做这种尝试。但这种方式有一个问题：inference time 的时候生成 video 本身很慢。你先要生成一段 video，再通过这段 video 生成 action；对于机器人实时性要求比较高的场景，会有很现实的问题，可能整个过程耗时较长，机器人就卡在那里不动。所以工业界很多人在尝试，怎么把这件事做得没那么 heavy，不一定完整 predict 一整段视频再做下一步，而是用一些 trick 去优化。

ZP：模型需要很强的指令跟随能力——这个需求是怎么被发现的？能不能举一个具体的场景，说明为什么机器人不只是学会一个动作就够了，还需要理解语言指令？

York：今天的技术路线里语言输入是有的。视频生成本身也要输入一句话，不然模型不知道要生成什么。一般输入可能是一小段预先的视频加上一段文字，然后模型根据这个 seed video 一点点往后生成。所以在视频模型预训练过程中，语言和视频理解已经有了一定对齐。我们拿到的 latent space 里的信息，其实已经包含了对语言的一些理解。

但它现在缺的是语言描述能力。大部分 Video Model 的输出只有 video，没有语言。video 本身代表了一种 representation，但存在现实问题——video representation 很大，需要的数据量非常大。想象一个长串任务，如果每一帧 video 都要记下来，这是不现实的，不可能维持这么长的 memory。这时就可能需要把每一帧再转换成相应的文字，也就是需要一定文字能力。当然可以用最简单的方法，先生成视频，再跑一个 VLM 让它描述视频里发生了什么，把这个作为 memory 一点点积累。但这样链条就更长，真正落地时 latency 更高，可能做不了。

所以后面肯定会有人做直接生成语言。方向上，一定会有人往这里探索，直接把语言生成部分也做出来，让视频和语言可以同时生成。我们之所以需要语言描述，是因为人类在记忆长线任务时，并不是记住每一帧视频。人记住的是一些关键点、关键 milestone，比如第一步任务做完了，第二步任务做完了。中间每一帧里什么东西、什么颜色，你可能并不记得。人有很强的 abstraction 能力，可以把眼睛看到的视频变成脑子里的几个字：第一步做完了，第二步做完了。模型现在也在模仿人类这套记忆模式。机器人本身也会遇到 memory 瓶颈，所以这是很类似的事情。

03 我们定义的落地很简单：看客户有没有把你踢出来

ZP：你们特别强调 Deployment，但我注意到行业里大家都在说自己在落地。你们眼中的落地和别人说的落地，区别在哪？你们内部是怎么定义真正的部署的？

York：我们强调 deployment，和我与 Lindon 做 Caper 的经历有很大关系。Caper 其实经历过一波小风口——就是当年 Amazon Go 做无人店、无人零售，国内也有很多公司尝试，包括阿里这样的大公司和一些融到几个亿以上的小创业公司。那一波下来，我们看到最终在整个无人零售里真正做成的很少。这里说的做成，是指被收购，或者做到一定业务量并持续发展。我们自己算一家，国内我知道还有一家做购物车的可能做得不错，亚马逊最后也转到了购物车方案上。

早期大家会觉得这个技术很酷，强调技术本身未来的可能性。当时大家都觉得未来就是无人店的形态，而购物车是一个中间态。但我们当时觉得，最核心的问题是，短期内无人店不可能是一个真正落地的形态。我们和所有超市客户聊的时候，他们并不关注你用了 deep learning 还是什么技术，他们关注的是这个系统到底能给他们带来什么——能不能帮他们省人力成本，或者带来其他价值。

说得直接一些，Amazon Go 到最后大家也在诟病后面是人工 check，不是完全准确。但其实这件事本身没关系——就像现在机器人行业大家说你这个是遥操还是不遥操，其实如果最终能给客户产生价值，那产品就有价值。问题是这个价值需要通过实际 ROI 去定义。你不能说后面操作人员的成本不算，只算前面帮客户省了多少成本。这样没有意义。帮客户省下来的钱，最终要从客户那里收回来；而收回来的钱能不能 cover 住背后做的那些事情，才是最核心的。

再加上 Amazon Go 整个方案本身需要花很多算力，也需要在店内装很多摄像头，安装很复杂。对大部分客户来说，可部署性比较弱。想象一下，你是一个商店或超市的店主，突然有人跟你说要在店里装一套系统，但安装需要线缆重新改造、顶上装很多摄像头、货架可能还要装传感器，还要花几天时间，做完之后你还不知道实际 ROI 怎么样。很明显你不会想尝试，除非对方能证明这件事一定有价值。否则大动干戈改造了店，最后没有价值，就白干了。

所以可部署性很重要。我们当时做购物车，就是因为它在可部署性上非常容易。大不了拿进店里，如果你觉得没用，把它推出去就行，不影响店里已有的任何基础设施，不用改任何东西。对商家来说，他会更愿意尝试。我们重视 deployment，是因为在这一整波过程中，我们经历过从风口上去再下来的完整过程。那波风口比较小，所以周期很短，基本两年时间就被证伪了——无人店到底能不能做被很快验证。国内像便利蜂，最早其实也是想做无人店，我们很早就知道他们在做这件事，最后做到后来发现根本不 make sense，就索性开便利店了。最终你会 land 到实际 ROI 合理的地方。

所以我们强调 deployment，最核心的是希望整个商业模式最后是合理的，而不是早期通过烧钱补贴、不管所有成本投入，哪怕做到上市也继续亏损。很多上市公司都是亏损的，但上市公司不能一直亏损，所有股东希望看到的是亏损减少、逐渐盈利。商业本质就是这样——最终大家希望你赚钱，而不是只做一个很酷的技术然后结束。我们看 deployment，最核心的就是最终 ROI 是不是合理，以及怎么计算 ROI。

Deployment 涉及的范围非常广，包括实际技术本身、operation 怎么做、模型和工程两个角度在 deployment 里需要哪些东西，以及这两块怎么协调。我们强调 deployment，其实是把从 foundation model 到最后部署过程中做 post-train、微调，再到最终可部署的一整套过程都包含在里面。我们认为它们是连在一起的。因为有些公司可能觉得自己只做 foundation model，把它做到足够泛化就好。但现在行业内对泛化的标准是不一致的，你也不知道要往哪里泛化。如果没有下游 input，上游很难决定怎么做。

这和大模型、视频模型、大语言模型的发展也类似。大模型整个发展过程中，并不是先把 pre-train 做得很好，然后 post-train、RL 都不管，而是交替进行。做完 pre-train 产生一些结果之后，会去做 post-train，看实际业务场景里能不能达到。如果达到得比较好，这些本来 post-train 的数据可能就会被拿到 pre-train 里面，变成未来的一部分。所以这是一个迭代过程。如果不做 deployment，就没有 post-train 这部分东西；只有 pre-train，就永远没有这个闭环。

ZP：公司目前重点做的 deployment。能否分享一下现在进展，比如进入了多少个场景、多少个客户？有没有实际部署后发现和预期不一样、比较有意思或意外的情况？

York：具体客户数量可能不太方便说，但我们现在最长的一家客户已经持续运作了 10 个月，还在运作。我们内部有一个缩写叫 CPUDKUO——Customer Pays U but Don't Kick U Out。太多 demo 或 launch，大家只关心你是不是进去了，但你进去以后过几天就被踢出来，那进去的意义是什么？这就回到我们对 deployment 的定义：deployment 必须是实际产生 ROI 的东西，而不是把东西搬到客户那里放一下就叫 deployment。

我们会比较关注这件事能不能长期持续产生价值。产生价值的核心，就是客户会不会把你踢出来。如果他觉得你不产生价值，就会把你踢出来。我们现在有一个帮客户折衣服、折毛巾的客户，已经运作了 10 个月。在这 10 个月里，确实也有非常痛苦的地方。我现在不能说 ROI 完全为正，但至少客户觉得我们在往好的方向发展。

其中有一个我们进去之前没有想到的痛点。做 demo 时，我们特别关注折叠本身这件事——怎么把毛巾、衣服或餐巾折到客户想要的样子。但实际做的时候遇到一个更大的问题：折完以后，这个东西需要放到某个地方，或者需要叠起来。这个过程需要一定推理能力，比如这堆东西已经堆了多高，大概什么时候要开始堆第二堆。我们进去之前是纯模仿学习，折完就放在那里，结果做到最后它自己倒了，前面就白叠了。这是进去之后才发现的一个很重要的问题。也正因为这个，我在语言模型这些东西上会比较关注 language 的部分，因为推理能力需要语言来承载。现在 agent 的能力其实是通过语言表达出来的，这是我们实打实看到的。

ZP：今天的 Video Model 有这种推理能力吗？

York：它是有的。整个 video 的过程不是只做一次 inference 然后就不管了，而是做一次 inference 后隔一小段时间再做一次，是一个迭代过程——实际当中从几十毫秒到几百毫秒都有可能，取决于部署的模型尺寸和优化程度。前一步输出如果能输出文字，这个文字就可以放到下一步的输入里，形成一个 chain，一直往下传。你可以把 video 部分完全抛掉，把它想象成一个纯语言模型——text in，text out，出来的 text 又变成下一个 text in，一直这样迭代。不管是 VLA 还是 Video Model，其实都可以做到这个事情。

最近我们看到更多 case，是在思考怎样才能让客户 ROI 真正为正。当我们只专注在一个任务上时，其实很难做到 ROI 为正。去年做部署的时候，我们觉得做单个任务可能就足够了。但后来发现，比如折叠毛巾、折叠衣服这些场景里，员工不是一整天只做这一件活。一个人需要干很多事情：除了折叠，洗衣机洗完以后要把东西从洗衣机里拿出来，叠完以后一摞一摞放到某个地方，再打包给客户。这是一个完整 workflow，不是单个 task。

过去我们只专注其中某个 task，但没有太多人关注整个 workflow 到底行不行。真正和客户聊时，他最后希望你完成的是整个 workflow。很多洗衣房、餐厅的管理其实非常粗放，不是精细到每一分钟都能管理员工在做什么。当他雇一个人类员工时，就告诉员工这一整天反复循环做这些事。现在机器人进去了，可以帮他做掉中间一步，但对 store owner 来说，他很难跟员工说中间有 15 分钟你别干这个了去干点别的。他还得招那一个人做剩下几步，只是中间有 15 分钟或 30 分钟可以坐在那里玩手机等机器人叠完。但商家还要付这个人的钱，不可能因为这 15 分钟或 30 分钟没干活就不给钱。最后算 ROI 时会发现，只替代中间这一小个环节，很难算清楚，也没有意义。

所以我们现在更关注的是做整套 workflow，真正让客户一听就觉得，OK 你只要帮我替代了这一整个 workflow，就帮我替代了一整个人。我们内部把这个叫 whole employee——怎么取代一个完整员工，而不是只做一个 task。这是我们去年一整年尝试部署过程中总结出来的。包括物流线、产线上的很多任务，也不只是坐在某个工位只做一件事。如果只做一件事就能产生价值，大部分场景已经被自动化设备替代了。现在还需要人工做的，通常哪怕很简单，也需要转身去拿东西、放到这里、再做下一步，会有一定变化。这种变化就要求模型具备推理能力和多任务能力，这是我们现在着重研发想达到的。

ZP：Whole employee 对应到软件领域，有人讨论 multi-agent 架构，有人认为应该是一个 agent 拥有多个技能，有人认为应该是 role-based multi-agent。真实世界机器人里，未来会是一个场景里多个机器人协作，还是一个机器人完成，只是在软件架构上做工作？

York：这肯定不是非零即一的问题，到最后两者会并存。有的任务一个机器人就能完成，有的任务比较复杂，可能需要多个机器人。我觉得在 agent 领域最后也会是共生状态。这个话题很有意思。我们今天还在讨论，当一个复杂任务让一个机器人做很困难时，要不要拆成两个机器人做？最好的情况当然是不拆，因为拆成两个机器人有实际成本——成本直接翻倍。这和虚拟 agent 很不一样。agent 大不了刷 token，而且 multi-agent 刷 token 也不一定比 single-agent 多，取决于 overhead。但机器人不是这样，多个机器人就是比一个机器人贵，不存在多个机器人反而更便宜的情况。所以多个机器人怎么协作、怎么协调，在行业里还是比较早期的。可能最近像 Figure 有 demo 一些简单协作任务，但当前我们觉得，先把一个机器人能搞定的事情搞定，再考虑协作问题。

比如洗衣房的场景，如果第一代机器人没有移动性，可以放一个机器人在洗衣机面前只做一件事：把衣服放进去洗、再拿出来放到篓子里；另一个机器人从篓子里把衣服拿出来去叠。但这么简单的场景分那么多个机器人到底有没有意义？我们需要这么做的主要原因是第一代机器人不能移动。如果能移动，问题就很简单——让折叠的机器人过去拿一下就行了，没有复杂到非得用两个机器人解决。当然用两个机器人有好处，有些任务可以并行，效率可能更高。但至少当下我们还没到特别极致追求效率的阶段。长期来看，确实会有一些场景用多个机器人协作效率更高。

ZP：现在行业还没有一个公认的衡量标准来评价机器人到底好不好用。学术界用 Success rate，但你们好像不太认可这个指标？

York：我们很早就不用 Success Rate 了。去年 4 月发布 Dyna One 的时候还会提这个指标，但内部已经摒弃了这个定义。因为 Success Rate 对实际商业没有任何意义。最简单的例子，叠一条毛巾，花一个小时叠和花 10 秒钟叠是完全不一样的概念。花一个小时也能叠完，但在商业上并没有 Success，因为没人能容忍你花一个小时叠一条毛巾。

从商业角度看，所有 Success 都必须带时间滤镜。你必须把时间（也就是我们内部所谓的 performance 或 speed）考虑进去。我们主要衡量几个指标：第一，有没有达到相应的 performance 要求，这个 performance 基本就是时间要求。不同客户会有不同需求，有的宽一点，有的紧一点，取决于他的其他 workflow 怎么安排。第二，实际产出的成果是不是达到客户预期。比如有些客户有非常严格的 SOP，毛巾要叠成什么样、衣服要叠成什么样都有要求；有些客户则无所谓，只要叠起来就行。不同客户对最终成品的标准不一样。

所以我们最终是把速度和成品质量放在一起考量。有时候可以做很快，但成品标准达不到客户想要的叠法，那也不行。这里面没有一个特别公认的衡量标准。每家客户可能都有不同指标，我们会根据相应 SOP 做定义。折叠客户和物流客户、餐厅准备食材的客户，指标都很不一样，最终产出的成品也不一样，很难找到一个完全一致的指标。

ZP：那你们在跟客户对接的时候，客户在用什么标准来评价你们的机器人？他们最在意的那个指标是什么？

York：客户会看这些指标，因为 ROI 本身就包含了这些部分。ROI 的组成是——他花钱让一个人类员工做这个事，但前提是这个员工能把事做好。比如叠毛巾，如果一个员工一天 8 小时只叠了 10 条毛巾，那这个钱肯定花得不值，ROI 肯定是负的。机器人也是一样，客户花钱买机器人，肯定希望花的钱少于人类员工，但做到同样的事情。当然做得稍微慢一点、成品质量稍微低一点，他可能可以忍。但如果慢很多、成品质量低很多，最后还是会觉得人类员工更有 ROI。

ZP：回头来看，这一年的部署经验，对你们上游的模型研发产生了什么具体的影响？有没有一个例子可以说明因为在现场看到了 X，所以在模型上做了 Y 的改变？

York：第一块是 reasoning。刚才其实提了很多 reasoning 相关的东西。在大语言模型领域，reasoning 已经是 no-brainer，做 agent 肯定需要 reasoning。但在机器人领域还没有达成共识，大部分公司的 demo 其实还是纯模仿学习。我们在落地过程中明确感受到，reasoning 是非常重要的。没有 reasoning，靠纯模仿学习基本很难做到大规模落地——可以做几个 case，但做不到真正的规模化。所以 reasoning 会影响上游很多科研方向。

Reasoning 包括两个部分。第一是怎样 follow language——给一条指令，它能遵循这个指令去做这件事。第二是怎么把当前正在做的事情描述出来，让下一步可以一步步连起来。这两件事对我们内部研发影响比较大。

第二块是 memory。Memory 和 reasoning 相关，因为如果没有记忆，其实就没有 reasoning 能力。我们经常说金鱼只有 5 秒记忆——如果什么都不记得，就没法 reason。所以 memory 是衍生出来的一个我们认为非常重要的东西。Memory 本身需要模型结构做一定调整，也不只是模型本身，还包括整个模型 harness，即整套框架，都会对 memory 产生影响。

第三块是 Video Model 对数据多样性的包容度。这也是我们通过下游场景逐渐总结出来的。理论上当然会觉得上游越泛化越好，但实际做的过程中，我们发现早期数据量不够大，模型泛化度比较低，每次到现场还需要采很多数据才能把任务做成。后来逐渐转到 Video Model 之后，数据池变大了，包括可以更容易地购买 ego-centric data，通过第三方获取大量数据。整体上提高泛化性的可能性大了很多。不像过去主要做 teleop 时，要提高数据量就得一条条真实去采，或者向第三方买，但第三方也是一条条采出来的，速度比较慢。到了 video 之后，ego-centric data 的采集会更方便、更快。所以从泛化性、reasoning、memory 几个方面，都对我们模型的发展方向产生了比较大的影响。这些都是 deployment 过程中逐渐强化出来的认知。

第三块是 Video Model 对数据多样性的包容度。这也是我们通过下游场景逐渐总结出来的。理论上你当然会觉得上游越泛化越好，但实际做的过程中，我们发现早期数据量不够大，模型泛化度比较低，每次到现场还需要采很多数据，才可能把这个任务做成。后来逐渐转到 Video Model 之后，数据池变大了，包括可以更容易购买 ego-centricdata，通过第三方买很多数据。整体上，提高泛化性的可能性大了很多。不像过去主要做 teleop 时，要提高数据量就得一条条真实去采，或者向第三方买，但第三方也是一条条采出来，会比较慢。到了 video 之后，ego-centricdata 这些采集数据会更方便、更快。所以从泛化性、reasoning、memory 几个方面，都对我们模型往哪些方向发展产生了比较大影响，这些都是 deployment 过程中逐渐强化出来的。

再往上一层，其实我们聊得比较少的是硬件本体。我们去年的认知是，stationary 固定式双臂机器人是有一定场景的。但在这一年多实践过程中，我们发现固定式双臂机器人的场景非常局限。如果看现在美国比较头部的几家做模型的公司，大部分都是固定式双臂。我们的想法是，固定式双臂做得再精细、再好，从场景角度看还是非常局限的。如果不加全身控制、不加移动能力——不管是双足还是底盘——它能做的事情都很少。所以我们在新一代机器人硬件上毅然决然选择加入移动性。移动性非常重要，而且加入移动性以后，模型研发方向也会发生很多变化。

Stationary 的时候，相机看到的是面前这张桌子加后面一些背景。但一旦机器人能动了，头一转就会看到很不一样的东西，对模型泛化的要求会高一个级别。现在如果看全身控制领域，真正做到可泛化操作类型模型的公司其实还没有。Figure 可能展示了一些，但大家也在讨论那到底是遥操还是模型，没有人知道。实打实能确认是模型做出来的，目前还没有。这件事在行业里还需要挺多时间去尝试。

04 我们不等 ChatGPT Moment，哪个垂类能部署我们就先去赚钱

ZP：长期来看，硬件本体会有多种形态，还是会逐渐趋向人形，覆盖所有场景？

York：我们当前还是比较倾向于逐渐往人类形态去做，最终可能是同样的硬件本体能做各种各样的任务。但我觉得未来机器人市场肯定是混合的。大部分场景靠泛化型硬件可以做到，但也不能排除一些特别需要特殊能力的场景。比如扫地机这个形态，可能一直到未来都会存在。哪怕未来人形机器人可以在家里扫地，可能还是扫地机效率更高，所以扫地机可能会作为独立形态存在。其他任务上，可能更多用泛化的人形形态。

这不是非零即一的问题，两者一定会同时存在。我们之所以关注通用型，是因为通用型硬件未来可落地的天花板比较高。专业化硬件说白了就是上一波机器人公司在做的事——不管是工业机器人还是家用扫地机，都是非常垂直的应用场景，在一个场景里做到足够精细，但也只能做这一个场景，天花板有限。一旦机器人本体形态相对泛化，能做很多任务，想象空间就会大很多。

但最后还是要看某个任务用通用形态效率更高还是专用形态效率更高。不同任务不一样，有的不太关注效率就不需要极致优化的硬件形态，有的非常关注效率就可能需要极致的专用硬件。最终还是取决于场景。

ZP：大家都在讨论仿真。你们在模型训练中用到仿真数据了吗？你觉得仿真在机器人这个领域目前真正能解决什么问题，不能解决什么问题？

York: 现在比较 promising 的，可能还是用 world model 做一些仿真器形态，帮助解决自动化 evaluation 等部分。但我自己不是特别有信心 world model 真的能做到像这个名字暗示的那样泛化——把全世界各种各样的场景都囊括进去。它原始含义可能不是这个意思，但很多人会这样理解。我们自己看到的是，在一定 domain 下面，world model 的生成做得不错，包括像我们这些柔性物体操作，它也可以模拟得比较好。

现在大家基本都在自己做，没有特别通用的开源方案。开源里基本就是 NVIDIA 的 Cosmos，国内可能也有阿里之前开源的一些东西，但海外基本还是 Cosmos。Cosmos 直接拿来用，可以生成一个大概的东西，但没法生成很精细的东西。精细部分都得靠自己的数据微调。微调可以做得比较好，但这里存在一个悖论：生成的数据到底是 in-distribution 还是 out-of-distribution？它到底有没有给整个机器人系统提供新的知识？这个现在还打问号。

当然大语言模型刚出来的时候，大家也争论过这个事，后来还是会用。说白了到最后还是经验主义，发现模型确实变得越来越智能，就说明它还是学到了一些新东西。所以仿真在 world model 这条路上是有一定可能性的，但要做到完全泛化非常困难。这也是为什么像 Yann LeCun 这样的大佬在做更底层的方向——他们想解决更本质的问题：到底怎么理解世界，怎么在模型层面构建世界。这需要更底层的科研去思考。

在传统仿真领域，不管是 rule-based simulator 这些，现在可能唯一效果比较好的还是运动控制领域，特别是和 locomotion、移动性有关的运动控制。操作层面我们也在尝试用仿真数据去做一些 RL policy，但难度比较大，因为操作层面的复杂度比 locomotion 高很多，暂时还没有统一解决方案。再进一步，比如机器人要和物体交互，去仿真整个交互过程，到今天用传统仿真数据都还很难。

ZP：如果时间拉到三年后，你最希望Dyna Robotics 变成一家什么样的公司？那个时候你们的机器人在做什么样的事情？

York：其实三年对我来说也很长。我们现在定目标可能就定 6 个月，6 个月后再看。短期目标就是刚才提到的 whole employee 愿景，以及模型基础能力的提升。如果硬要说三年左右的周期，从我们自己的角度来看，因为我们是一家非常注重 deployment 的公司，三年内至少我们会在某些领域利用当前技术已经达到的一些能力，做到可扩展。

这些领域可能是垂类 use case，只有这几个垂类可以 scale，但我觉得 Dyna Robotics会是第一家尝试去做这件事的公司。我们不会等到大家说的 ChatGPT moment 发生之后再去大规模部署。任何一个垂类行业如果有大规模部署的机会，我们就会去做，从里面学习 know-how，再看下一步应该做什么行业或 use case。这是我觉得三年左右比较合理的预期。

ZP：整个具身智能行业，什么时候能看到更多智能机器人？不是过去常见的扫地机器人、酒店送餐机器人，而是更智能、有任务泛化能力的机器人。更长远的机器人 AGI 又大概是什么样？

York：时间点在当前行业里很难预测。去年我们觉得灵巧手可能还需要几年时间，但今年已经能看到很明显的趋势：这件事是能做的，虽然还没有便宜到可以直接落地。我们当时的判断逻辑很简单——觉得灵巧手是非常精密的元器件。去年以前也有很多公司做灵巧手，传统机器人公司也有做。我曾参观过上海某大学一个教授的实验室，他们花了 100 多万人民币买了一个灵巧手，真的非常复杂，你看着就会觉得这个东西不容易做。以过去经验衡量，会觉得这件事很难，需要很多时间。

但当整个行业真的投入进去之后，你会发现里面会有取舍。有些不太需要的精度可以直接丢掉。现在很多灵巧手也有各自问题，比如散热、可靠性问题都有，但能看到行业在往前推进。所以时间线真的很难推。但我比较确定的是，机器人不可能像大模型一样产生爆发式增长。原因是没有一个预先存在的硬件渠道摆在那里。没有这个渠道，就不可能产生爆发式增长。

哪怕看 3C 消费品、手机、电脑、汽车，也没有任何一个硬件品牌产生过像互联网那样的爆发式增长。即使是 iPhone，也是多年逐渐积累。早期 iPhone 3、iPhone 4 刚出来时大家开始有认知，但那几年发展也比较慢，iPhone 整体市占率一直比较低，安卓一直是大头。直到后来海外市场 iPhone 才变得更主流，国内现在也还是安卓占大头。本质上，硬件需要制造、销售，不像软件一个 command 所有东西就出来了。

所以机器人无论如何都不可能像大语言模型那样，出来以后一下子爆发、所有人都开始用。我觉得比较 realistic 的参考还是无人驾驶，但机器人和无人驾驶也不一样。无人驾驶是安全性要求非常高的行业，是一个零和一的行业——不到“一”的那一刻就没法真正出去卖，可以小规模试验，但没法 scale up。机器人不是这样，因为场景非常广。有些场景也需要很高安全性，但可以先不做，可以先做那些安全要求比较低、能先落地的场景。所以机器人的过程会更线性一点。无人驾驶可能憋到最后技术真的成熟了，因为汽车本身已经是成熟渠道，可能会有一波比较大的爆发；机器人更多可能是一条线慢慢往上涨。时间线上可能会比较接近无人驾驶，但路径不完全一样。

我们对自己机器人的终极愿景，就是它和正常人的交互一样。想象你今天招了一个新员工，你对他做的第一件事其实是培训：告诉他需要做什么，告诉他这些事怎么做。机器人不管智能度有多高，最终也肯定是这样的状态。因为它的 knowledge 再丰富，也没法丰富到每一个小细节都知道。最简单的例子，有的人 prefer 袜子放在这个抽屉里，有的人 prefer 放在另一个地方。这是 personal preference，没法通过 knowledge 预先输入到机器人里面。

所以机器人最终肯定需要交互。我们觉得最终的机器人交互形态，就是非常自然的人与人的交互形态。一方面是语言，另一方面是 video demo，也就是你给它演示一遍。很多东西是语言说不出来的，比如衣服要叠成什么样，语言很难描述清楚。你可以非常精细地说第一个袖子折到多少厘米，但没人这样描述。更直观的方式是演示一遍：衣服就这样叠，你按照我这个叠就行。所以我们认为最终和机器人交互就是两种形态：语言对话加演示。

这也回到我们最近整个模型研发方向——我们在这两种形态上都会做更多投入。未来我们希望机器人不管是语言指令，还是行业里说的 image goal condition（拿一个 image 或一小段 video 作为目标 condition，让它最后达到这个样子），都可以做到。有了这个之后，我觉得就可以认为它接近 AGI 了，因为你可以持续进化它，可以教它新的东西，它可以学。

05 炉边闲话

ZP：从第一次创业到今天，你觉得自己最大的变化是什么？

York：我觉得自己最大的变化是更佛了。第一次创业的时候，我有很大的心理包袱。一定要做得比别人好，因为当时同龄人都去大厂工作了，我选择了一件很少数人才会选择的事。所以第一次创业，特别是 Caper 做到两三年、三四年的时候，心理负担最大。那时候会看到大家开始走上正常生活轨迹，而我还在苦哈哈地想怎么融资、怎么做第一个 MVP。

因为太要强了，就无法容忍任何小瑕疵，完美主义心态会非常重。看到公司某个员工事情没有做得特别好，就可能特别生气，觉得他别干了。随着公司发展，到 Caper 后期我的心态好了很多。当然后期又会有另一个包袱——比如收购之后也有很多声音觉得，这个公司就造购物车，能卖那么多钱，是运气比较好。我也承认运气成分确实存在，整个行业可能没有几家公司有我们这个运气，把这个事情相对成功地做出来了。

所以当时也有很强的心态，想再一次证明自己。既然上一家公司大家觉得我们运气好，那我一定要再做一个公司，证明不是运气好，而是一直可以做出来。所以最初做这家公司时，确实有这样的心态。从我和 Lindon 的角度，财务层面已经没有太多压力了。第一波创业至少让我们在财务上不会遇到巨大问题。第二次创业最早更多是想证明自己——能在更大的领域、更大的舞台证明自己。

做了一年半之后，我心态变佛的主要原因：第一是我觉得机器人是一个很大的领域，是长期长跑的事情，不像很多机器人公司说一两年之内要做什么东西。我觉得不现实。如果带着这样的心态做创业，会非常痛苦，因为你会觉得所有东西的预期都没有达到，很难受。

第二是当前行业确实比我们当时做购物车、无人零售时竞争激烈很多。当时同期竞争的其他公司基本都是 nobody，大家原来没什么背景，苦哈哈出来干这个事。但现在这些竞争对手，要么是著名教授，要么是连续创业者、企业家。我们本来觉得有过成功经历，这一次应该会有比较好的起点，但发现并不是。我们在这个行业里还是 underdog，虽然不在最底层，但肯定也不是最顶层——不是那种站在那里别人就可能投 10 亿美金的级别。

在这样的竞争环境下，如果每天都想着要做第一，心理压力会很大。所以我现在更多是比较平和的心态。这件事我会尽最大努力，还是想做第一、想成功，但不会因为短期内没有达到预期就非常沮丧，或者把早年那些完美主义要求加到整个团队上。做长期有意义的事情，远比做短期非常 shiny、看上去很酷的事情更有价值。这是我心态上最大的变化，是更能和自己和解的状态。

ZP：过去几年，除了创业实践本身，有没有某个人、某本书，或者某个东西对你影响比较大？

York：Caper 做完之后，中间有一段迷茫期，在想下一个创业项目做什么。那时候看过一本佛教的书，叫《次第花开》。它用非常白话、通俗易懂的形式解释了很多佛教理念。这本书对我的影响一直到今天都挺大。我说自己更佛，也和佛教里面很多观点有关，比如怎么放下我执、怎么不要和世界上那么多不可控的力量斗争。我觉得这本书算是我人生的一个转折点。

我从小是无神论者，但当时压力非常大，会想我到底怎么样才能证明自己的人生是有意义的。后来发现这件事，最重要的其实是你相不相信。你相信了以后，它就会对你有帮助。遇到问题的时候，你把这些东西拿出来，跟自己说就这样做就行了。

ZP：除了创业之外，现在平时还有什么兴趣爱好吗？

York：最近其实比较少了。Caper 被收购之后比较闲的那段时间，我会有一些自己的兴趣。我挺喜欢音乐，会弹吉他，也会做一些曲子。我的个人兴趣和技术没有太大关系。技术对我来说纯粹是工作——可能早年会有一些兴趣，但做到今天这个状态，我更多是把技术看成实现目的的工具。我不会特别觉得某个技术很酷，因为我觉得整个技术行业，不管是硬件技术还是软件技术，都是跟着需求产生的。比如造飞机，是因为人觉得在地上跑太慢了、想更快，所以开始造飞机。技术本身我没有特别热爱，反而对艺术相关的东西更感兴趣。

我觉得艺术这个东西用 AI 辅助有点奇怪。艺术本身是你自己有一些想法，想表达出来，然后去做的事情。让 AI 去做，那你要表达什么？如果把它作为商业化的东西，比如要出唱片、要卖，那可以，那是商业逻辑。但如果是纯爱好，AI 完全是鸡肋。你找一个不是你自己想法的东西，输出一个你觉得是你想法的东西，这件事非常荒谬（笑）。

请注意，此次访谈内容已经过精心编辑，并得到了 York 的认可，我们也欢迎读者通过留言互动，分享您对本访谈的看法。ZPotentials 将继续提供更多关于人工智能、全球化市场、机器人技术等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群，与我们共同分享、学习、成长。

Dyna Robotics 正在招聘！

美国（硅谷）职位包括研发、infra、数据、控制算法等，申请入口：https://www.dyna.co/careers

中国（上海）职位包括软件架构、运控、导航、结构等，申请入口：https://bit.ly/dynajobs

如果你想毛遂自荐，还没有找到合适的职位，也欢迎直接投递简历和感兴趣的职位到 jobs@dynarobotics.ai

文章来自于"Z Potentials"，作者 "Z Potentials"。

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。

项目地址：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址：https://github.com/PeterH0323/Streamer-Sales