全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

AI资讯 2025-05-12 16:12

+10284 阅读

输入一段文字，AI就能设计出可实际搭建的乐高？

来自CMU的研究人员提出的LegoGPT彻底改变了游戏规则。

只需输入「金属紫色电吉他」，AI就能生成一个不仅外形逼真，还能在现实中稳稳站立的乐高模型！

不同于传统3D建模工具生成的，LegoGPT通过微调Meta的LLaMA模型，结合47,000个稳定结构数据集，确保98.8%的设计符合物理定律。

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

LegoGPT是第一个能够将文本输入转换为物理稳定的乐高设计的AI模型。

目前，数据集、代码和模型均已开源。

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

论文地址：https://www.arxiv.org/abs/2505.05469

项目地址：https://avalovelace1.github.io/LegoGPT/

不同于那些会为了迎合你输入的请求而生成奇怪（且不稳定）设计的 AI 生成器，LegoGPT的设计遵循物理定律，这意味着。

LegoGPT不仅设计了与文本描述（提示词）相匹配的乐高模型，还确保它们可以在现实世界中逐块搭建，

无论是人类测试者通过手工搭建，还是借助机器人辅助构建。

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

搭建高背椅子的乐高过程

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

图1：生成的乐高模块，经过带有力传感器的双臂机器人系统，根据 AI 生成的指令来拾取和放置积木，最终组成完成的乐高成品

LegoGPT生成的乐高组件，不止包含了具体的结构，还能按照提示词，包含喷漆机纹理图案。

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

图2：LegoGPT生成的乐高组件

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

生成带有提示词纹理图案的乐高组件

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

LegoGPT根据提示词金属紫色电吉他，生成的乐高组件是吉他形状，并且下部为紫色

LegoGPT相比之前生成3D建模的工具，其最大的优势在于其生成的结构是稳定的。

许多现有的 3D 生成模型专注于创建具有详细几何形状的多样化物体，但其生成的设计往往无法物理实现。

没有适当的支撑，设计的一部分可能会坍塌、漂浮或保持断开状态。

而使用LegoGPT生成的设计98%的时间是物理稳定的。

突破传统3D建模局限

LegoGPT怎么做到给出稳定设计的？

首先，LegoGPT的微调了Meta的一个开源大模型LLaMA-3.2-1B-Instruct，为了训练模型，团队构建了一个名为StableText2Lego的新数据集。

其中包含超过47,000个稳定的乐高结构，28000个独特的3D对象，

其中每一个都由OpenAI的GPT-4o生成描述性标题，例如「流线型」「细长的船」或「具有醒目前格栅的经典风格汽车」这样的描述以及对应的3D乐高组件。

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

图3：a）统将 LEGO 设计分割成一系列文本标记，以从下到上的光栅扫描方式排序，

b）将砖块序列与描述配对，以微调 LLaMA-3.2-Instruct-1B。c）在推理时，LegoGPT 通过根据文本提示逐个预测砖块来增量生成LEGO设计

每个结构都经过了物理分析，以确保它可以在现实世界中建造。

此外，LegoGPT团队使用了一个独立的软件工具来增强积木预测模型，该工具可以使用模拟重力和结构力的数学模型来验证物理稳定性。

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

图4：考虑乐高重力和结构力的物理模型，以预测乐高组件拼接后的稳定性

LegoGPT作为第一个预训练LLM，该模型不是预测下一个词，而是逐步预测要添加的下一个积木，从而逐步搭建出一个完整的由乐高组成的世界。

LegoGPT会通过首先生成一系列精确放置的乐高积木来工作。

对于序列中的每个新积木，系统确保它不会与现有积木碰撞，并且能够适应建筑空间。

完成设计后，它使用上述数学模型来验证模型能够直立而不倒塌。

如果LegoGPT生成的模型在实际搭建中部分组件倒塌，系统也会识别出第一个不稳定的积木并回溯，移除它以及所有后续积木，然后尝试不同的方法。

这种具有物理感知的回滚方法被证明是LegoGPT的要点。没有它，只有24%的设计能够站立，而使用完整系统时，成功率则有98.8%。

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

图5：LegoGPT生成的不稳定组件，在回滚中被去除

乐高不只是一个玩具，LegoGPT的用途，也远远不止加速新一代乐高玩具的设计，把乐高店里的玩具价格打下来。

LegoGPT展示出的技术实力，有着现实用途。

能够设计出稳定的乐高组件，也就能让大模型设计出可以3D打印的组件，再由机器人将这些组件拼接成具有现实功能的工具，

例如无人机，无人驾驶的船只及模型车，这些在技术上，是一脉相承的。

LegoGPT中对于物理模型，以及不稳定组件的回滚，使其能够成为第一个具有极高可靠率，能产生稳定3D结构的预训练模型。

当然，LegoGPT仍存在一些局限性。

当前的LegoGPT版本仅在20×20×20的建筑空间内工作，并且仅使用八种标准积木类型。

LegoGPT目前支持一组固定的常用乐高积木，在未来工作中，LegoGPT的研究团队计划扩展积木库，以包含更广泛的尺寸和积木类型，例如斜坡和地砖。

研究人员希望扩大他们的训练数据集，以包含比目前可用的21个类别更多的对象。

作者介绍

Kangle Deng

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

Kangle Deng是卡内基梅隆大学（CMU）机器人研究所的博士生，由Deva Ramanan和Jun-Yan Zhu的共同指导。此前，他于2020年获得北京大学学士学位。

Kangle Deng的研究方向主要为计算机辅助创作，目前的研究工作得到了微软研究院博士奖学金的支持。

Ruixuan Liu

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

Ruixuan Liu卡内基梅隆大学（CMU）计算机学院机器人研究所的博士生，导师是智能控制实验室的Changliu Liu教授。

他的研究方向为机器人学习/控制、生成式制造以及人机协作。

Ruixuan Liu在卡内基梅隆大学（CMU）获得了电气与计算机工程学士学位，辅修机器人技术。

本科期间，他在Sebastian Scherer教授领导的AirLab实验室工作，工作重点是用于建筑结构检测的传感器融合和三维重建。

参考资料：

https://arxiv.org/html/2505.05469v1

https://arstechnica.com/ai/2025/05/new-ai-model-generates-buildable-lego-creations-from-text-descriptions/

文章来自于微信公众号 “新智元”，作者：peter东英智

全球首次实测通过！CMU华人用AI设计的乐高「不翻车」

AI 3D建模

【开源免费】LGM是一个AI建模的项目，它可以将你上传的平面图片，变成一个3D的模型。

项目地址：https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用：https://replicate.com/camenduru/lgm

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。

在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0