72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws

搜索
AI-TNT
正文
资源拓展
72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws
2025-04-17 10:43

最近一段时间,各家新势力都在角力部署端到端的智能驾驶系统。


作为公认的新范式,它可以让整个智能驾驶系统反应更快,更加拟人,能处理以往方法无法解决的大量 corner case,被认为是自动驾驶通向 L3、L4 的正确方向。


在国内,小鹏于去年 7 月就宣布了量产端到端大模型上车,并构建了从算力、算法到数据的全面体系,在端到端方向上一直保持着领先的身位。


本周,小鹏在 AI 技术分享会上介绍了自己在智能驾驶领域的重要突破和进展,首次披露了正在研发 720 亿参数的超大规模自动驾驶大模型,即「小鹏世界基座模型」。


小鹏的技术人员表示,在物理世界,信息和模态的复杂程度要比数字世界复杂数倍,自动驾驶本质上是物理世界中的复杂 AI 问题,也是具身智能的第一步。


小鹏发展的云端世界基座模型以大语言模型为骨干,使用海量的优质多模态驾驶数据进行训练,具备视觉理解、链式推理和动作生成能力。通过强化学习训练,其基座模型可以不断自我进化,逐步发展出更全面、更拟人的自动驾驶技术。


72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws


小鹏汽车自动驾驶负责人李力耘表示,小鹏早在去年就开始布局 AI 基础设施,建成了国内汽车行业首个万卡智算集群,用以支持基座模型的预训练、后训练、模型蒸馏、车端模型训练等任务,小鹏将这套从云到端的生产流程称为「云端模型工厂」。


端到端大模型虽然是各家车企的共识,但仍然面临着算力等瓶颈。当前主流的智驾系统,如运行在 2× 英伟达 Orin 芯片上的系统,大部分只能支持 0.5-1 亿参数,在部署时必须对学习到的知识进行取舍。相比之下,云端大模型体量可以达到车端模型的 140 倍以上。


自去年下半年开始,小鹏面向 L4 级别的自动驾驶启动研发全新的「AI 大脑」,即小鹏世界基座模型。


其团队利用优质自动驾驶训练数据先后开发了多个尺寸的基座模型,目前正在着手推进 72B(72 Billion,即 720 亿)超大规模参数世界基座模型的研发,参数量是主流 VLA 模型的 35 倍左右。


72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws


据介绍,该模型的一大优势是具备链式推理能力(CoT),能在充分理解现实世界的基础上像人类一样进行复杂常识推理,并做出行动决策,如输出方向盘、刹车等控制信号,实现和物理世界的交互。


小鹏希望通过基座模型的能力让智驾系统从「模仿人类」进化到「超越人类」,最终能够处理全场景的自动驾驶问题,包括一些模型从未在训练数据中遇到的问题。


更进一步,端到端模型的研究也可以延伸到整个具身智能领域。李力耘表示:「世界基座模型是小鹏自动驾驶真正走向 L3、L4 的基础,也会是未来小鹏所有物理 AI 终端的通用模型。」


从零打造云端模型工厂


小鹏的云端模型工厂「车间」涵盖基座模型预训练和后训练(强化学习)、模型蒸馏、车端模型预训练到部署上车的完整生产链路。整个体系采用强化学习、模型蒸馏的技术路线,能够生产出小体量、高智能的端侧模型,甚至为不同需求的汽车定制不同的「大脑」,让「千人千面」的模型研发成为可能。


72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws


目前,小鹏依靠自有万卡集群已拥有 10 EFLOPS 的算力,集群运行效率常年保持在 90% 以上,从云到端的全链路迭代周期可达平均 5 天一次。


小鹏世界基座模型负责人刘博士介绍,多模态模型训练的主要瓶颈不仅是 GPU,也需要解决数据访问的效率问题。小鹏汽车自主开发了底层的数据基础设施(Data Infra),使数据上传规模提升 22 倍、训练中的数据带宽提升 15 倍;通过联合优化 GPU / CPU 以及网络 I/O,最终使模型训练速度提升了 5 倍。目前,小鹏汽车用于训练基座模型的视频数据量已达到 2000 万 clips,这一数字今年还将增加到 2 亿 clips。


依托强大的 AI 算力基础设施和数据处理机制,小鹏开启了全新的基座模型研发范式,从云端模型预训练到车端模型部署,整个「云端模型工厂」的迭代周期达到平均 5 天一次。


三大阶段性成果


在率先量产端到端大模型的同时,小鹏在物理世界大模型研发上也再进一步,其分享了基础大模型研发的三个阶段性成果:


验证了 Scaling Laws 在自动驾驶领域持续生效:


72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws


在后装算力的车端上成功实现基模控车:


72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws


启动 72B 参数模型训练,搭建针对强化学习的模型训练框架:


72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws


规模法则(Scaling Law)揭示了大模型的性能随着模型的计算量、训练数据量和参数量的提升而提升,在大语言模型(LLM)领域一直是人们追逐的目标。而在自动驾驶领域上,训练数据远不止单模态的文本数据,还包括摄像头、激光雷达等关于物理世界的多模态数据,本质上,这要求模型对物理世界形成认知和理解。


小鹏团队首次验证了 Scaling Laws 在自动驾驶领域持续生效,刘博士表示:「过去一年,我们做了大量实验,在 10 亿、30 亿、70 亿、720 亿参数的模型上都看到了明显的规模法则效应:参数规模越大,模型的能力越强。同样的模型大小,训练数据量越大,模型的能力也会越强。」


不久前,小鹏实践了理论,在后装算力的车端上用小尺寸模型实现了控车。尽管只是非常早期的实车测试,全新基模已经展现出令人惊讶的智驾能力。例如模型在未训练的情况下就能适应香港的右舵驾驶环境。


在 AI 技术上,小鹏也一直在探索最新方向,自去年就已开始研发大模型中的强化学习技术。强化学习能够帮助模型自我进化,学会处理训练数据中未出现的长尾问题,做到更安全的自动驾驶。只有足够强大的基座模型,才能被强化学习不断激发出能力上限。这也是小鹏汽车选择云端蒸馏路线的原因之一:在云端不计成本地训练出高智能、泛化能力强的模型,再将其蒸馏到适配车端算力的小模型上,才可以让车端模型的性能超越算力限制。


值得一提的是,强化学习、云端蒸馏等技术的思路,在今年初爆火的 DeepSeek R1 中得到了验证,目前正在逐渐成为行业共识。


基础模型是小鹏汽车 AI 化转型的重要一步,不过在智能驾驶的大模型时代,过去规则时代的经验仍能发挥作用。在开发强化学习的奖励模型(Reward Model)时,小鹏研发团队基于规则经验设计了奖励函数,将规则时代的沉淀转化为了新的生产力。


72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws


小鹏也在推动世界模型(World Model)的研发,小鹏的世界模型是一种实时建模和反馈系统,能够基于动作信号模拟出真实环境状态,渲染场景,并生成场景内其他智能体(即交通参与者)的响应,从而构建一个闭环的反馈网络,可以帮助基座模型不断进化,逐渐突破过去「模仿学习」的天花板。


这也意味着人们能够以更有效的方式构建新模型,产生新能力。小鹏工程师表示,我们或许可以像黄仁勋展望的那样,用 AI 模型来生成一个新模型。


据介绍,小鹏世界基座模型研发和训练成果更多的细节,预计还会再今年 6 月的全球 AI 顶会 CVPR 上进行分享。


昨天,小鹏又宣布开启自研 AI 芯片计划,预计将在 2025 年底在中国内地率先实现 L3 级智能驾驶落地。


72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws


未来,小鹏还希望通过云端蒸馏小模型的方式将基模部署到车端,给「AI 汽车」配备全新的大脑。这款模型的能力同时也将拓展至小鹏的 AI 机器人、飞行汽车等。


文章来自于“机器之心”,作者“泽南”。


72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

IOS下载
安卓下载
微信群
沪ICP备2023015588号