没有仿真,没有预设参数,也没有剪辑空间。
在深圳全球首届具身智能开发者大会的比赛现场,取而代之的是上百台六轴机械臂、统一的绿色布景,以及——真实世界。
20 支队伍,真机上阵:数据现场采、模型现场训、系统现场部署。
模型不限,代码自带;算力、硬件、AI Infra,全部由主办方提供。
目标只有一个:教会真机「看懂环境」、「做出决策」、「动手操作」。
时间?只有 72 小时。
如此不按套路出牌,那些 benchmark 高分模型,到了这里,恐怕也只能「菜鸟互啄」。而这,正是这场比赛想要的——
最好的测评,不在榜单,而在现实世界。
它的随机性、多样性与复杂性,是检验具身智能模型能力的终极利器。

全球首届 EAIDC(具身智能开发者大会)暨「具亮计划」黑客松决赛现场。
3 月 30 日,由自变量机器人、深圳市人工智能行业协会、广东省具身智能训练场联合主办的全球首届 EAIDC(具身智能开发者大会)暨「具亮计划」黑客松决赛,正式收官。这也是全球首个将「真实环境 + 真实任务」同时写入赛制的大规模具身智能赛事。
过去几十年,具身智能的真机世界里,一直缺少类似大模型榜单那样的统一评测体系,来回答「哪个模型更强」。行业迫切需要一个在真实物理环境中检验技术成熟度的平台,而这场比赛,正好是一次尝试。
「大家取得的成绩,让我有些惊讶。」自变量机器人创始人兼 CEO 王潜坦言,这个方向本身上手难度极高,一开始办比赛也带着些许忐忑。但没想到,参赛团队最终能把事情做到这个程度。

自变量机器人创始人兼 CEO 王潜
清华、北大等顶尖高校与科研机构的 20 支强队同台对抗,现场可谓「硬核拉满」。「从没打过这么富裕的仗。」一位参赛选手这样形容。

决赛现场,多台机械臂协同运行,实时调试系统。

决赛现场,参赛队伍和自变量工作人员,围绕真机调试模型与系统。
三天之内上手?这在常规情况下,几乎是不可能完成的任务。要知道,专业研究实验室搭一套类似系统,至少需要 6 个月。于是主办方大手笔,直接造了一个「顶配考场」。
模型?WALL-OSS、Pi0.5、Dream Zero等开源基础模型,随便选;
算力?100+ PFLOPs,管饱;
机械臂?高性能真机,近百台;
Baseline?提前配好;
数据集?免费开放;
数据采集、训练、推理 infra?一整套,现场备齐,甚至包括在线测评。
当所有「外部变量」全被抹平,唯一的问题就是:你的模型,到底能不能打?能不能在真实世界里,快速落地?

真机上阵:参赛队伍在现场完成数据采集、训练与操作闭环。
摆在选手面前的四道决赛任务,就是主办方精心设计的「职业资格考试」,包括套圆环、分水果、插电源线、拼单词。看似简单,实则难度递增,每一个任务背后都对应着具身智能落地的真实痛点。
其中,前两题更像「保底分」。
套圆环,是经典的 peg-in-hole 问题:看深度、估姿态、做对齐、控接触。这是典型的工业自动化能力之一——精细操作的分水岭。分水果,则从「手」转向「脑」:给一句指令「把水果放进碗里」,模型要完成从语言到动作映射。
如果机器人能分拣好苹果和梨,它就有望在物流仓库分拣成千上万种形态各异的快递,或者在无人超市补货。

将圆环套在柱子上(左);按指令分类水果(右)
真正拉开差距的,是后两题,分数权重也高。主办方的指向也很明确:从 Robotics 到 Embodied AI,「手活儿好」不够,「脑力够强」才是决定上限的能力。
任务三的插电源线,完全是机器人的「噩梦」。线是软的,姿态是随机的;手会挡视线,插入还有物理阻力。这不只是操作问题,而是在不确定中,完成精细对齐。
现实世界中,80% 的操作都不是刚体,比如线缆、衣物 、食材,谁解决了柔性物体,谁就真正接近「人类级操作」。
拼单词,更进一步——几乎不难「动手」,但极难「动脑」。这是一个典型的长程任务:顺序怎么排?哪些字母已用?放在哪里?一步出错,全盘崩掉。

插电源线(左),拼写单词(右)
而现实世界,几乎全是这种问题。去厨房拿杯子,倒好咖啡,加糖,端到书房。又或者收拾餐桌、整理玩具、叠衣服……这种长时序、多步骤的任务能力,是机器人进入家庭、成为「管家」的必经之路。
它要求模型不仅要「会做」,还要「会想」:从理解语言指令,到拆解任务、实时规划,再到一步步执行动作,最终把事情完整做完。

决赛现场的选手们。
比赛中,不同队伍选择了不同技术路径。有人用 Pi0.5、Dream zero,也有不少团队选择基于 WALL-OSS,在现场复现任务表现。
但一开始,情况并不乐观。很多团队甚至连「跑通」都困难,成功率只有 20%–30% 左右。但随着调参、补数据、换策略,成绩快速爬升。
像套圆环这样的任务,成功率可以提升到 60%–70%;更复杂的拼单词任务,也从几乎不可用,提升到 40%–50% 的水平。
这说明在真实环境里,模型是能被快速调出来、真的能干活的。
另一方面,问题也比想象中更「暴露得彻底」。
比如一上 B 榜,成绩明显掉下来,说明很多模型的泛化能力其实还不够;很多团队为了时间,只用了很少的数据,也暴露出训练范式、数据利用效率的不够。

现场24小时轮转评测,实时出分保证比赛公平
具身智能,不能再「纸上谈兵」了。行业现在缺的,不是 Demo,而是一个能在真实世界里「见真章」的真靶场。这一点,在比赛结束后的圆桌环节,形成了高度共识。
而这块靶场的建设,就死磕三件事:真问题、真开源、真泛化。
如果说,赛题设计锚定的是「真问题」,那么接下来更值得讨论的是,具身智能为什么必须开源?又该怎么开源?
「我们一直想把这件事真正做起来,让大家把开源模型用好。」自变量联合创始人兼 CTO 王昊表示。事实上,在当前阶段,不开源,行业很难真正跑起来——这一点,也在圆桌讨论中几乎形成共识。

在圆桌环节,自变量与来自不同生态位的嘉宾就开源、产学研生态建设,展开讨论。
原因很直接。具身智能不是单一模型的问题,已经变成一个系统工程——一个从数据采集、模型训练到真机部署、软硬件协同的系统工程。门槛高到什么程度?高到如果没有开源,大多数开发者甚至连「入场」的机会都没有,高校也很难培养出真正能落地的人才,整个行业只能在少数团队内部循环。
更关键的是,现在这个阶段,本身就没有标准答案。用什么数据、什么模型结构、什么训练路径,没有任何一条路线已经被验证为「最终解」。这就决定了,没有哪一家公司可以独立把这件事做完。只有把数据、模型、流程不断释放出来,让更多人参与试错,行业才有可能加速收敛。
从这个角度看,开源的意义,其实已经不只是技术共享,而是在「制造共识」。谁能吸引更多开发者、更多团队在同一套体系上迭代,谁就更有机会定义未来的技术路径。
但具身智能的开源,又和大模型不太一样。很多关键数据来自真实世界,涉及隐私和成本;很多能力绑定在具体硬件上,难以复现;还有一些推理和系统能力,本身就是公司的核心竞争力,不可能完全开放。
所以现实情况是,大多数所谓的「开源」,并不是完全开放,而是在不断寻找一个平衡点。
在这一点上,首届 EAIDC 算是率先打了一个样:与其只开源代码,不如把「能跑通的能力」开放出来,让开发者不仅能看到模型,还能用数据、用流程,甚至在真实环境里直接跑一遍。
以自变量的开源模型为例,在比赛现场,WALL-OSS 已经能通过标准工具链快速部署,从模型加载到机械臂执行,几小时内打通完整闭环。无论是接入 Hugging Face、魔搭,还是对接机械臂控制系统,都无需复杂定制开发。
「这个事情需要大量开发者参与,不只是科班出身,也希望更多普通开发者加入进来,生态才能真正做起来。」王潜表示。
他举了一个很形象的例子:「小龙虾」为什么能火?并不是因为一群专业人士在做,而是无数个人开发者、无数小团队一起,把它推成了一个庞大的生态。
自变量想做的,正是同样的事情。通过吸引更多开发者参与进来,不断扩展开源模型的能力边界,补全一块长期缺失的拼图:中国自己的「具身智能大脑」,
除了真问题、真开源,具身智能走进现实世界,需要死磕一个问题:达到真泛化。
具身智能要具备突破性的泛化能力,就不能止步于「黑灯工厂」中的单点应用,而必须走进真实的家庭与生活,在随机、充满不确定性的场景中大规模持续采集数据、开展训练。只有用优质的数据「饲料」,才能培育出具备优秀泛化能力的大模型。
对此,自变量机器人指出,必须从通用基础模型出发,才有可能在不同场景中高效迁移,实现规模化落地。这个路径是单向的,不能倒过来。
一方面,他们持续打磨通用模型能力,围绕泛化与长程任务不断提升上限;另一方面,则主动进入具体场景,尤其是养老服务、公共服务这类相对封闭的环境,让模型在真实世界中运行,不断获得真实数据,优化和验证通用能力。

圆桌嘉宾就开源与具身智能的产业化路径展开讨论。
无论是更多样的场景、更多真实数据、更多失败和反馈,恰恰只有在大量开发者同时参与时,才可能出现。这也是这场赛事的「生态价值」所在。
在王潜看来,它的意义不只是一次竞技,而是降低门槛、吸引开发者、加速生态形成的起点。
首先,它解决了「让人进门」的问题。通过开源模型与统一基础设施,把原本高门槛的具身智能「打平」,让开发者可以直接上手,在真实环境中完成任务。
表现突出的方案,还可以进入 WALL-OSS 官方示例库,获得行业认可。
其次,企业也可以站在社区肩膀上。当模型被不断复现、部署、验证,社区的反馈会迅速暴露问题,任何依赖 Demo、夸大能力的方案,都很难在这样的体系中长期存在。
而且,开发者在真实环境中完成任务、踩坑、优化,这些经验不再停留在个体,而是通过开源模型与社区不断回流,反过来推动整个技术体系进化,逐步形成「开源—创新—回馈」的闭环。
正如一位圆桌对谈的嘉宾所言,你把所有学生都用起来,有更多开发者,有开发者以后,就有更好的技术,有更优秀的人才,形成更好的闭环。
具身智能的进化方式,也不再依靠少数公司的单枪匹马,而是一个由生态驱动的、持续加速的系统。

未来,该项赛事将持续举办,并依托开源平台与软硬件开发体系,汇聚更多开发者,推动中国具身智能生态不断向前。王潜表示。
EAIDC,也不再只是一个比赛或大会,而是在尝试成为具身智能领域的「真实世界评测场」,以及行业的观察窗口。
过去,我们判断一个模型,看的是 benchmark 排名;而未来,一个具身模型是否真的能打,答案会更简单——
来 EAIDC 的现场,看一眼。
文章来自于“机器之心”,作者“Sia”。