
用「无本体数采」的方式训练具身模型,灵初智能的这条路径是 VLA 之后行业最热的方向之一。
3 月 10 日,据极客公园获悉,具身智能企业灵初智能首次对外披露其过往融资进展:公司已先后完成天使轮及 Pre-A 轮融资,累计融资规模达 20 亿元。
天使轮由国开金融、国中资本、央视融媒体产业投资基金等国家级「国家队」资本,某数千亿上市公司旗下战投、长飞光纤旗下基金,两大核心产业龙头资本,沃德尔等知名产业资本,及元生创投、珠海科技产业集团、钧山投资、燕缘创投、大米资本、沃赋资本、彬复资本、泰合资本等多家知名基金共同投资。
Pre-A 轮由上海国资徐汇资本等基金领投,梁溪科创产业二期母基金 (博华资本管理)、锡创投等地方国资,及普丰资本、钛铭资本等市场化基金跟投,多家老股东实现超额跟投。华兴资本担任长期财务顾问。
经估算,公司估值一年内大概翻了 6-7 倍,已经向行业独角兽迈进。
灵初智能成立于 2024 年年底,此前宣传并不多。
创始人兼 CEO 王启斌在创办灵初智能之前,先后就职于云迹科技和京东机器人,主要负责酒店配送机器人与物流配送机器人的研发。
联合创始人陈源培出生于 2001 年,曾在北京大学杨耀东教授团队及斯坦福大学李飞飞实验室学习与研究。他此前的研究重点包括:利用强化学习驱动灵巧手完成复杂长程任务与类人操作,以及将人类数据迁移到机器人系统中。
与今年年初获得大额融资的多家具身智能公司类似,灵初智能也将重心放在「具身大脑」方向。
公司当前的核心路线,是用「无本体数采」的方式训练具身模型:通过人类佩戴式设备采集操作数据,以缓解具身智能长期面临的高质量数据瓶颈。这条路径在 VLA 之后成为行业最热的方向之一。
在模型训练上,则采取强化学习为主、模仿学习为辅的方式,追求更高节拍与成功率。
极客公园采访了灵初智能两位创始人。两人的分工和路线选择都很清楚:CEO 王启斌的表达更锋利,核心抓手是落地与交付;联合创始人陈源培更偏技术掌舵,对接下来技术路线要往哪走,有一套相对确定的判断。
他们的共识也很明确:灵初智能不做整机硬件自研——在他们看来,轮式底盘已经供给过剩、缺乏差异化空间;但在决定长期能力边界的关键环节上,他们又非常强硬:一定要自研灵巧手和数据采集装置,并把落地场景收敛在物流/商超,用一个足够小、但可以持续外推泛化的细分任务打穿,跑出能够持续回流的数据飞轮。
在采访中,两位反复强调:他们已经进入真实世界部署阶段——不是拍 demo、写论文,而是在客户现场把系统跑起来,再用现场数据反哺模型迭代。下面摘录几段最具代表性的原话,可以看出这是一支很务实、强落地导向的团队:
·「夹爪能解决 80% 的问题」其实是个伪命题。你真的进到客户现场就知道——一个仓库里 100 个物体你只能搞 80 个,那剩下 20 个怎么办?总不能扔掉。
·很多公司说要做商超,但你真正去商超现场看,会发现核心问题根本不是「从货架上拿东西」的这种抓取放置的工作(pick and place),商超的主战场依然是有人作业。
·我们的判断是:人最终是「载体」,所以我们会尽可能把人的各类模态都采下来,从而最大程度避免数据未来「不可用」。
·未来数据采集本身会一直持续,但它要么进入少数算法能力很强的公司体系里;要么就只能退化成纯人力外包公司。两者的价值和定价会差非常多。
·大厂只要肯投人、肯投钱,收很多数据去训练,基本都能训出一些「看起来还可以」的模型。但如果我们把物流场景的数据牢牢握在手里——甚至不对外出售,同时把大部分物流场景占住——那别人再想进来,不管是数据质量还是数据收集速度都会差很多,最终效果也会差很多。
以下是部分采访纪要,经极客公园整理。
问:过去几年具身智能没有落地的核心问题是什么?
王启斌:核心是数据问题。
数据问题大家都有共识,但更底层的问题在于:目前还没有形成一种技术路径与商业模式相结合的机制,使得数据能够大规模、低成本地回流。也就是说,具身领域现在还不存在「特斯拉模式」。
我自己对特斯拉做过比较深入的研究:特斯拉模式之所以能启动,是因为从 2013 年开始铺垫,Model 3 在 2017 年发布后,很快做到年销量上百万台,靠巨量部署让数据快速回流,从而推动 FSD 快速迭代。但具身机器人今天最难的就是市场怎么冷启动、数据从哪里来——仿真数据的 gap 太大,而缺数据就无法大规模部署;无法部署就没有低成本的数据回流,形成了一个典型的「鸡生蛋、蛋生鸡」的闭环难题。
所以现在大家都在搞数据:美国头部公司在做,中国从政府到头部企业也都在做。但关键不在于「做不做数据」,而在于数据能不能形成一个有效、可持续的模式——从数据基础设施(Infra)、数据采集方式、怎么采、怎么训,到是否能训练出具备泛化能力的预训练模型,这些是具身继续往前走必须跨过的几步。
对灵初来说,今年的主旋律就是解决这个问题。
我们在做数据采集设备上非常激进——我们在做一套用于预训练的、无本体的多模态数据采集手套,目前已经在北京规模化部署。

灵初的思路其实很简单:我们会用人的多模态数据作为基础——戴上数据手套,大规模采集从物流、商超到泛服务业的各类真实作业数据。我们采的是长程、多模态数据:包括触觉、头部/手部等多视角视觉,以及关节角等信息。然后用这些数据去训练我们的基础模型。真正落地到某个机型时,再针对目标机型补充很少量的数据——通常是百小时量级的 teleop/遥操作数据——把它接到后训练里,去解决具体场景的问题。
问:这套方案用的是真实人类数据,但是早期你们其实更多的用的是仿真强化学习来训练吗,是做了转向吗?
陈源培:我们早期其实更像是一套「混合方案」,仿真一直是其中的一部分。但我们也很早就在讲人类数据,只是当时行业里很多人未必能立刻理解,所以外界印象可能更集中在「仿真」上。
仿真的优势很明确:它可以用来冷启动,也可以用来验证很多思路。比如我们早期做的一些 demo——像打麻将——很多数据就是从仿真里收集的,因为仿真并行效率很高、数据量可以迅速堆起来,所以短期内容易做出成果。
但随着行业发展,人类数据规模变成可行方案之后,仿真在模型训练里的权重就会逐步下降。换句话说,不是仿真「完全没用」,而是它更适合早期的冷启动与验证;当真实数据能规模化时,训练主线会自然往真实数据迁移。
我们内部也讨论过:未来的仿真大概可以分成三个阶段。
第一阶段,类似现在 Isaac 这一套,主要是物理规则写死的仿真系统。
第二阶段,是可微分仿真,能够模拟一些软体物体,并支持梯度回传。
第三阶段,则是端到端的「仿真」——也就是大家说的视觉模型/世界模型:简单说,就是把视觉模型当作仿真器来用。
我觉得如果未来「仿真」真的还能发挥很大作用,可能更像第三种:用世界模型做仿真器。因为如果还是纯靠写规则,其实很难真正解决 sim-to-real gap,而且现在算力也基本到了一个卡点,再往上堆也很难带来质变。也正因为如此,大家现在都在往世界模型的方向转。
我们也关注模型侧的进展,但真正投入比较多人力去做的,是一个我认为长期都会非常有用的方向:跨本体数据迁移。也就是怎么把人的数据迁移到机器人上,比如我输入一段人类操作的视频,怎么把它转换成机器人能够执行的操作序列。
问:灵初智能的数据采集管线和其他公司有什么不同?
王启斌:灵初智能一直关注长程灵巧操作。
我们之前在看,全世界范围内有没有人把灵巧手的人类数据集真正做得很好?
我们的结论是没有,从去年开始基本全是夹爪的数据。我们做模型,对手部数据的需求非常清楚,所以我们判断:这块供应缺口很大,我们有能力用类似 UMI 的商业模式做出自己的方案,于是就自己开始做数据采集工具。
我们做的是一套多模态的数据采集手套。强调「多模态」,是因为人的操作能力本质上就是多模态融合的:既有力/触觉反馈,也有视觉信息,还包含 21 个关节角的数据。

以 human data 为中心 来构建数据体系,之后可以 retarget(重定向/迁移)到不同机器人的末端执行器,甚至不同本体上去。
我观察行业里目前很多方案,要么只是手套采关节角,但缺触觉;要么加了触觉,却没有把末端执行器的高自由度位置等信息纳入一个统一体系。
同时我们也是已经进行了规模化部署的——不是做一个样机拍个片,发两篇论文、写两篇 PR 稿,你去看看行业里有没有部署百台以上的真实部署的?我们 3 月底会发布一个相对更大的数据集,今年的目标是百万小时的数据。
问:夹爪不能通向未来吗?
陈源培:我认为未来只靠夹爪商业模式肯定是跑不通的。
原因很简单:所谓「夹爪能解决 80% 的问题」其实是个伪命题。你真的进到客户现场就知道——一个仓库里 100 个物体你只能搞 80 个,那剩下 20 个怎么办?总不能扔掉,也不可能跟客户说「这 20 个 SKU 你别下单了」。真实落地场景里很多时候是没有讨价还价空间的:哪怕有一个 SKU 做不了,也算失败,这个场景就落不了地。
很多人觉得「80% 也可以」,是因为他们做的是 demo:100 个抓到 80 个,剩下 20 个不展示就完了。但在真实场景里不可能这样,你只有到现场做过,才会知道夹爪的局限到底有多大。
比如很多公司说要做商超,但你真正去商超现场看,会发现核心问题根本不是「从货架上拿东西」的这种抓取放置的工作(pick and place),商超的主战场依然是有人作业。
真正刚需是人类长程作业链条。补货(拆箱→分装→推车→上架→整理)、挂钩陈列、冰柜补货(开门/摆放/调整)、过期品处理等,都是长程、强交互、强泛化的灵巧操作链路。
另外,从数据角度也很关键:如果你是夹爪路线,你换一个仓、换一个任务,末端结构和执行能力可能都要变,你的数据往往得重新收一遍,根本不通用。
这也是为什么我们要做多模态数据:我们的判断是:人最终是「载体」,所以我们会尽可能把人的各类模态都采下来,从而最大程度避免数据未来「不可用」。

相反,机器人的数据——包括各种 UMI/夹爪那类数据——是有可能变得不可用的。因为机器人硬件会更新换代:你今天用的夹爪可能过一两年就不适用了,你可能要换末端结构;一旦末端构型变了,过去那套数据很可能也就用不上了。但人是不变的,人的数据不仅量级最大、也最具多样性,因此长期价值更高,能最大限度降低「数据作废」的风险。
问:成本如何?
王启斌:数据成本有三个大来源:第一是硬件投入,第二是人员成本,第三是存储成本。我们这套方案相比遥操作的数据采集,除了更有泛化性之外,整体成本 3 月份后,可以达到整机遥操作的 1/10。
后面我们还会有一些商业模式:比如从现在的室内版本,往后做一个可携带、可众包的 portable 版本,它会变成类消费品,大家戴着它,用众筹/众包的方式采集。人可以在自己的工作中,甚至在隐私保护的前提下,在生活中用它来采集数据。因为传统的数据采集场景离真实作业环境太远,大家很难真实复刻工作生活里那么复杂的环境和物体堆放方式。
包括数据设备本身,我们也可能做众筹模式,或者租赁平台模式,把数据采集成本大幅降下来。

不过要记得:低成本只能保证数据能够大规模生产,并不能保证模型训练就一定能训出效果。如何把这样大规模的数据训到模型里头,训出效果来,这是灵初的核心竞争力。
问:灵初会把卖数据作为商业模式吗?
陈源培:会有数据的售卖。但我们不会把自己定位成一个纯粹的数据供应商,单靠「卖数据」这个模式,是不强也不长久的。
你看国内很多所谓做数采的,本质上就是人力采集、外包式的供给:短期可能有用,但长期很容易因为数据多样性不足等问题被淘汰。更关键的是,这种模式的壁垒不在技术,而更像是人力外包——当越来越多人都能做时,它的价格会被打下去,公司价值也会快速下降。
数据本身永远是缺的,尤其在具身领域,有些长尾需求可能一直都需要采,这个需求不会消失。所以我判断未来会变成这样:数据采集本身会一直持续,但它要么进入少数算法能力很强的公司体系里——因为这些公司能定义数据结构、采集方式、设备形态,并把数据真正训进模型里;要么就只能退化成纯人力外包公司,提供「劳务式采集服务」,类似现在一些云服务厂商提供的人力标注/采集能力。两者的价值和定价会差非常多。
问:灵初智能之前提过今年做到百万小时数据的说法,百万小时对于灵初意味着什么?
王启斌:聊到「百万小时够不够」,我觉得首先得把范围说清楚。我们并不认为百万小时就能直接通向所谓的 AGI 或家庭 ToC。
百万小时指的是在一个比较大的域里——比如物流和泛商超——这一级别的真实数据可以支撑一个基础模型,覆盖商超、物流的一些拣选、打包等任务,但这还不足以泛化到家庭 ToC 场景。我们做的真实人类数据,也是大规模采集的从物流、商超到泛服务业的各类真实作业数据。
问:为什么选择物流?
王启斌:公司成立后,我们花了接近半年把大量场景都梳理了一遍:看泛化性、看技能结构、结合这一波具身的能力边界,再看成功率要求和工程可交付性,看了个方向:制造业、物流、再到服务业/ToC。
如果把这些场景放在一条轴上看,你会发现有几条「曲线」在拉扯:在工业端,精确性和节拍要求非常高,尤其是主线装配这种场景,但它的泛化需求反而没那么强;而越往服务业、ToC 走,泛化性越来越强,但对精确性、对节拍的要求形态又变了。
我们判断这一波具身智能更合适的切入点,是去找这些曲线的「交叉区间」——既有足够泛化价值,又不像工业主线那样对成功率/节拍要求极端到一开始就很难啃动。所以我们更倾向从物流和泛服务业切入。
我觉得大家聊物流经常聊得太粗了,物流本身颗粒度非常大,里面又有生产物流、流通物流,仓留到门店级,一直到 ToC。
灵初现在做的不是「大物流」,我们做得很具体:目前我们选了三个场景。
第一个是衣服的供包(装袋/打包),核心在柔性物体的抓取、扫码、放置;

第二个是入箱检,就是从标准周转箱里把物品拿出来扫码、再放置;
第三个是分拨墙,和入箱检差不多。
我们之所以选这些细分场景,一方面它们有商业基础,算是相对通用、需求稳定的场景;另一方面在技能结构上,核心技能其实就是三到四个,但真正难的是物品泛化在变、环境也在变。
比如服装供包,我们面对的是上万件衣服,不同尺寸、不同颜色,而且不同仓库的灯光条件也不一样;入箱检也是一样,物体数量多、混放与堆叠很复杂。物流的难点其实经常被低估:除了物体和环境的泛化,你还要同时解决成功率和节拍。
我们选场景的逻辑,除了传统「商业能不能跑通」之外,还叠加了一个更重要的维度:数据能不能在真实场景里形成增量,数据回流能不能反哺模型,形成飞轮。这也是我们选择这些场景的核心原因。
问:当前进展如何?
王启斌:以服装供包为例,我们已经进入初步商业化阶段。第一阶段,我们能做到千件以上衣服的泛化——多件混放、随手丢在一起,也能稳定抓取处理;同时节拍也很高,最高可以做到 800 UPH,应该是国内目前比较领先的水平。虽然我们真正做这个场景只有两个多月,但已经在客户现场进入「陪产」阶段。
入箱检(从周转箱中取出物品扫码、放置)这条线,我们也已经在客户现场完成了第一阶段验证,目前正在做现场爬坡。之所以能推进到这个程度,本质上还是建立在模型能力和数据量之上,支撑我们在现场快速迭代。
问:节拍怎么做到这么高?
陈源培:我们现在基本上已经以强化学习为主了,模仿学习用得比较少。整体训练流程更像是一个 offline-to-online RL 的过程:从一开始的 offline 阶段(用数据集训练),我们就主要采用强化学习的方式去做,因为这样和后续的 online 阶段衔接更顺、过渡也更自然。
强化学习在训练过程中会有一段「自我探索 + 加速」的阶段,所以它在动作速度上有机会超过人类遥操作的上限。你会看到用强化学习训出来的动作往往更干净、更利落,也更「灵巧」。成功率也会持续攀升。
今年看起来,对于模型来说最有意义的还是后训练阶段的强化:在真实场景里,通过一些 human-in-the-loop 的方法去解决实际落地的问题——这一块价值最大。
问:下一个阶段的灵初智能的主要目标是什么?
王启斌:对灵初来说,今年的主旋律会先聚焦在两件事:数据和模型能力。在这个基础上,我们再用模型的后训练能力去落地一些细分的物流场景。
今年在物流方向,我们会把手头这三个场景做到规模化发货/交付,但不会为了扩张而去做十个场景——扩到更多场景会是明年的主旋律:等模型能力到了一定水平之后,再把能力往更多场景里扩展会更自然。
我觉得这也代表了行业一个相对正常的节奏:在预训练和泛化能力还没真正做强之前,单靠「一个场景一个场景」用真机遥操堆出来,很难形成规模效应。
问:怎么看待未来具身智能来自大厂的竞争?
王启斌:我觉得大厂推进具身智能的想法是对的——做基模本来就是大厂应该做的事。但他们的路径和我们不太一样:很多大厂的数据采集和训练,跟「具体场景」的关联度其实没那么高,另外在落地工具链这一整套上也未必是同一个体系。
说白了,大厂只要肯投人、肯投钱,收很多数据去训练,基本都能训出一些「看起来还可以」的模型,做 demo 是没问题的,这有点像大模型早期那种状态:砸资源总能做出一个像样的展示。至于效果好坏,会有差异——你可能觉得某家现在更强、某家现在差一点,但过一段时间排名又可能变化,我觉得这都很正常。
但我们追求的并不是「做出一个看起来不错的 demo」。我们更看重的是商业闭环:能不能找到具身真正的落地场景,把数据飞轮转起来,并且快速把这一套模式跑通、跑规模,尽快占住新的行业位置——我觉得这才是关键。
也有人会类比大模型,觉得最后可能变成「国内就是大厂之间的竞争」。但我认为具身不太容易出现完全同样的格局,因为具身有一个非常关键的问题:数据孤岛。大语言模型为什么能卷得那么快?因为数据相对公开,大家都知道去哪拿,互联网上一扒就有;自动驾驶也是类似。
但具身不一样:你收集两三年的物流场景数据,和别人收集两三年的工业场景数据,本质上是两套完全不同的数据分布,训出来的模型也会完全不一样。即使是大厂,很多时候也只能在内部搭一个相对封闭的场景去采数据;但如果我们把机器人真正部署进真实业务环境,数据回流速度会非常快,而这部分数据大厂是拿不到的,模型偏差也会很大。
所以这恰恰构成了初创公司的时间窗口:不是说大厂投钱就做不到,而是大厂一定有组织和路径依赖;初创公司的机会在于能不能趁这个窗口期把场景和数据飞轮跑起来、把市场占住。大模型里很难形成这种壁垒,因为门槛更多在人才,而人才是流动的;但具身不一样,具身还有「数据」这一层。如果我们把物流场景的数据牢牢握在手里——甚至不对外出售,同时把大部分物流场景占住——那别人再想进来,不管是数据质量还是数据收集速度都会差很多,最终效果也会差很多。
文章来自于“极客公园”,作者 “Li Yuan”。