超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

AI资讯 2026-04-01 17:01

+8705 阅读

不按套路出牌的比赛

没有仿真，没有预设参数，也没有剪辑空间。

在深圳全球首届具身智能开发者大会的比赛现场，取而代之的是上百台六轴机械臂、统一的绿色布景，以及——真实世界。

20 支队伍，真机上阵：数据现场采、模型现场训、系统现场部署。

模型不限，代码自带；算力、硬件、AI Infra，全部由主办方提供。

目标只有一个：教会真机「看懂环境」、「做出决策」、「动手操作」。

时间？只有 72 小时。

如此不按套路出牌，那些 benchmark 高分模型，到了这里，恐怕也只能「菜鸟互啄」。而这，正是这场比赛想要的——

最好的测评，不在榜单，而在现实世界。

它的随机性、多样性与复杂性，是检验具身智能模型能力的终极利器。

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

全球首届 EAIDC（具身智能开发者大会）暨「具亮计划」黑客松决赛现场。

3 月 30 日，由自变量机器人、深圳市人工智能行业协会、广东省具身智能训练场联合主办的全球首届 EAIDC（具身智能开发者大会）暨「具亮计划」黑客松决赛，正式收官。这也是全球首个将「真实环境 + 真实任务」同时写入赛制的大规模具身智能赛事。

过去几十年，具身智能的真机世界里，一直缺少类似大模型榜单那样的统一评测体系，来回答「哪个模型更强」。行业迫切需要一个在真实物理环境中检验技术成熟度的平台，而这场比赛，正好是一次尝试。

「大家取得的成绩，让我有些惊讶。」自变量机器人创始人兼 CEO 王潜坦言，这个方向本身上手难度极高，一开始办比赛也带着些许忐忑。但没想到，参赛团队最终能把事情做到这个程度。

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

自变量机器人创始人兼 CEO 王潜

四道真题，藏着具身智能的「成人礼」

清华、北大等顶尖高校与科研机构的 20 支强队同台对抗，现场可谓「硬核拉满」。「从没打过这么富裕的仗。」一位参赛选手这样形容。

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

决赛现场，多台机械臂协同运行，实时调试系统。

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

决赛现场，参赛队伍和自变量工作人员，围绕真机调试模型与系统。

三天之内上手？这在常规情况下，几乎是不可能完成的任务。要知道，专业研究实验室搭一套类似系统，至少需要 6 个月。于是主办方大手笔，直接造了一个「顶配考场」。

模型？WALL-OSS、Pi0.5、Dream Zero等开源基础模型，随便选；

算力？100+ PFLOPs，管饱；

机械臂？高性能真机，近百台；

Baseline？提前配好；

数据集？免费开放；

数据采集、训练、推理 infra？一整套，现场备齐，甚至包括在线测评。

当所有「外部变量」全被抹平，唯一的问题就是：你的模型，到底能不能打？能不能在真实世界里，快速落地？

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

真机上阵：参赛队伍在现场完成数据采集、训练与操作闭环。

摆在选手面前的四道决赛任务，就是主办方精心设计的「职业资格考试」，包括套圆环、分水果、插电源线、拼单词。看似简单，实则难度递增，每一个任务背后都对应着具身智能落地的真实痛点。

其中，前两题更像「保底分」。

套圆环，是经典的 peg-in-hole 问题：看深度、估姿态、做对齐、控接触。这是典型的工业自动化能力之一——精细操作的分水岭。分水果，则从「手」转向「脑」：给一句指令「把水果放进碗里」，模型要完成从语言到动作映射。

如果机器人能分拣好苹果和梨，它就有望在物流仓库分拣成千上万种形态各异的快递，或者在无人超市补货。

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

将圆环套在柱子上（左）；按指令分类水果（右）

真正拉开差距的，是后两题，分数权重也高。主办方的指向也很明确：从 Robotics 到 Embodied AI，「手活儿好」不够，「脑力够强」才是决定上限的能力。

任务三的插电源线，完全是机器人的「噩梦」。线是软的，姿态是随机的；手会挡视线，插入还有物理阻力。这不只是操作问题，而是在不确定中，完成精细对齐。

现实世界中，80% 的操作都不是刚体，比如线缆、衣物、食材，谁解决了柔性物体，谁就真正接近「人类级操作」。

拼单词，更进一步——几乎不难「动手」，但极难「动脑」。这是一个典型的长程任务：顺序怎么排？哪些字母已用？放在哪里？一步出错，全盘崩掉。

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

插电源线（左），拼写单词（右）

而现实世界，几乎全是这种问题。去厨房拿杯子，倒好咖啡，加糖，端到书房。又或者收拾餐桌、整理玩具、叠衣服……这种长时序、多步骤的任务能力，是机器人进入家庭、成为「管家」的必经之路。

它要求模型不仅要「会做」，还要「会想」：从理解语言指令，到拆解任务、实时规划，再到一步步执行动作，最终把事情完整做完。

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

决赛现场的选手们。

比赛中，不同队伍选择了不同技术路径。有人用 Pi0.5、Dream zero，也有不少团队选择基于 WALL-OSS，在现场复现任务表现。

但一开始，情况并不乐观。很多团队甚至连「跑通」都困难，成功率只有 20%–30% 左右。但随着调参、补数据、换策略，成绩快速爬升。

像套圆环这样的任务，成功率可以提升到 60%–70%；更复杂的拼单词任务，也从几乎不可用，提升到 40%–50% 的水平。

这说明在真实环境里，模型是能被快速调出来、真的能干活的。

另一方面，问题也比想象中更「暴露得彻底」。

比如一上 B 榜，成绩明显掉下来，说明很多模型的泛化能力其实还不够；很多团队为了时间，只用了很少的数据，也暴露出训练范式、数据利用效率的不够。

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

现场24小时轮转评测，实时出分保证比赛公平

为什么必须开源？具身智能的「中国解法」

具身智能，不能再「纸上谈兵」了。行业现在缺的，不是 Demo，而是一个能在真实世界里「见真章」的真靶场。这一点，在比赛结束后的圆桌环节，形成了高度共识。

而这块靶场的建设，就死磕三件事：真问题、真开源、真泛化。

如果说，赛题设计锚定的是「真问题」，那么接下来更值得讨论的是，具身智能为什么必须开源？又该怎么开源？

「我们一直想把这件事真正做起来，让大家把开源模型用好。」自变量联合创始人兼 CTO 王昊表示。事实上，在当前阶段，不开源，行业很难真正跑起来——这一点，也在圆桌讨论中几乎形成共识。

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

在圆桌环节，自变量与来自不同生态位的嘉宾就开源、产学研生态建设，展开讨论。

原因很直接。具身智能不是单一模型的问题，已经变成一个系统工程——一个从数据采集、模型训练到真机部署、软硬件协同的系统工程。门槛高到什么程度？高到如果没有开源，大多数开发者甚至连「入场」的机会都没有，高校也很难培养出真正能落地的人才，整个行业只能在少数团队内部循环。

更关键的是，现在这个阶段，本身就没有标准答案。用什么数据、什么模型结构、什么训练路径，没有任何一条路线已经被验证为「最终解」。这就决定了，没有哪一家公司可以独立把这件事做完。只有把数据、模型、流程不断释放出来，让更多人参与试错，行业才有可能加速收敛。

从这个角度看，开源的意义，其实已经不只是技术共享，而是在「制造共识」。谁能吸引更多开发者、更多团队在同一套体系上迭代，谁就更有机会定义未来的技术路径。

但具身智能的开源，又和大模型不太一样。很多关键数据来自真实世界，涉及隐私和成本；很多能力绑定在具体硬件上，难以复现；还有一些推理和系统能力，本身就是公司的核心竞争力，不可能完全开放。

所以现实情况是，大多数所谓的「开源」，并不是完全开放，而是在不断寻找一个平衡点。

在这一点上，首届 EAIDC 算是率先打了一个样：与其只开源代码，不如把「能跑通的能力」开放出来，让开发者不仅能看到模型，还能用数据、用流程，甚至在真实环境里直接跑一遍。

以自变量的开源模型为例，在比赛现场，WALL-OSS 已经能通过标准工具链快速部署，从模型加载到机械臂执行，几小时内打通完整闭环。无论是接入 Hugging Face、魔搭，还是对接机械臂控制系统，都无需复杂定制开发。

「这个事情需要大量开发者参与，不只是科班出身，也希望更多普通开发者加入进来，生态才能真正做起来。」王潜表示。

他举了一个很形象的例子：「小龙虾」为什么能火？并不是因为一群专业人士在做，而是无数个人开发者、无数小团队一起，把它推成了一个庞大的生态。

自变量想做的，正是同样的事情。通过吸引更多开发者参与进来，不断扩展开源模型的能力边界，补全一块长期缺失的拼图：中国自己的「具身智能大脑」，

「孤勇者」，跑不出真泛化

除了真问题、真开源，具身智能走进现实世界，需要死磕一个问题：达到真泛化。

具身智能要具备突破性的泛化能力，就不能止步于「黑灯工厂」中的单点应用，而必须走进真实的家庭与生活，在随机、充满不确定性的场景中大规模持续采集数据、开展训练。只有用优质的数据「饲料」，才能培育出具备优秀泛化能力的大模型。

对此，自变量机器人指出，必须从通用基础模型出发，才有可能在不同场景中高效迁移，实现规模化落地。这个路径是单向的，不能倒过来。

一方面，他们持续打磨通用模型能力，围绕泛化与长程任务不断提升上限；另一方面，则主动进入具体场景，尤其是养老服务、公共服务这类相对封闭的环境，让模型在真实世界中运行，不断获得真实数据，优化和验证通用能力。

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

圆桌嘉宾就开源与具身智能的产业化路径展开讨论。

无论是更多样的场景、更多真实数据、更多失败和反馈，恰恰只有在大量开发者同时参与时，才可能出现。这也是这场赛事的「生态价值」所在。

在王潜看来，它的意义不只是一次竞技，而是降低门槛、吸引开发者、加速生态形成的起点。

首先，它解决了「让人进门」的问题。通过开源模型与统一基础设施，把原本高门槛的具身智能「打平」，让开发者可以直接上手，在真实环境中完成任务。

表现突出的方案，还可以进入 WALL-OSS 官方示例库，获得行业认可。

其次，企业也可以站在社区肩膀上。当模型被不断复现、部署、验证，社区的反馈会迅速暴露问题，任何依赖 Demo、夸大能力的方案，都很难在这样的体系中长期存在。

而且，开发者在真实环境中完成任务、踩坑、优化，这些经验不再停留在个体，而是通过开源模型与社区不断回流，反过来推动整个技术体系进化，逐步形成「开源—创新—回馈」的闭环。

正如一位圆桌对谈的嘉宾所言，你把所有学生都用起来，有更多开发者，有开发者以后，就有更好的技术，有更优秀的人才，形成更好的闭环。

具身智能的进化方式，也不再依靠少数公司的单枪匹马，而是一个由生态驱动的、持续加速的系统。

超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

未来，该项赛事将持续举办，并依托开源平台与软硬件开发体系，汇聚更多开发者，推动中国具身智能生态不断向前。王潜表示。

EAIDC，也不再只是一个比赛或大会，而是在尝试成为具身智能领域的「真实世界评测场」，以及行业的观察窗口。

过去，我们判断一个模型，看的是 benchmark 排名；而未来，一个具身模型是否真的能打，答案会更简单——

来 EAIDC 的现场，看一眼。

文章来自于“机器之心”，作者“Sia”。