云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

AI技术研报 2026-06-02 11:57

+8611 阅读

把一件皱成一团的衣服叠好，是家务，也是机器人操作里的“硬仗”。

叠衣服，何以成为具身智能圈的“试金石”？

对人类而言，“叠衣服”是个无需思考的日常生活动作，但在机器人柔性操作领域，却是顶级难题之一。

衣物属于典型的无定型柔性物体，抓起一个角，整体结构都会随之改变。

宏观上，机器人要判断整件衣服的朝向、展开程度和折叠路径；
细节上，布料的摩擦、厚薄、弹性、静电吸附，甚至毛边、线头、标签、拉链、纽扣与夹爪或桌面的轻微挂连，都会改变一次抓取、拉平或翻折的结果。

因此，叠衣服已成为前沿具身操作模型的重要验证场景。

Physical Intelligence在π系列发布中，将laundry folding作为需要专门post-training的高灵巧任务；Dyna Robotics也把布料/衣物折叠作为真实商业场景中的第一步，强调长时间稳定运行、输出质量和错误处理能力。

叠衣服看似日常，却同时考察具身智能机器人的柔性物体感知、双臂协同、接触控制、长程执行和状态恢复能力。

它不是一项难度固定的任务，而是随初始状态、衣物类型和操作目标的变化，呈现出清晰的难度梯度：

从已经展平、边角清晰的衣物开始折叠，到面对揉皱、翻折、朝向未知、局部遮挡的任意初始状态；

从尺寸较小、结构相对简单的儿童短袖、毛巾，到尺寸更大、自由度更多的成人长裤、长袖上衣；

从简单对折，到需要先展开、整理、对齐再进行多步折叠的完整流程。

每增加一个维度，机器人需要处理的状态空间、接触不确定性和长程误差都会迅速放大。

叠衣任务就像是具身操作的一个缩影：足够贴近日常生活，又足够集中地暴露机器人在真实世界中面临的核心难题。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

△任务难度随衣物拓扑复杂度、初始状态复杂程度、衣物类型多样性与物体数量的增加而提升

长期以来，行业多数方案仅能在理想仿真环境或衣物摆放规整的标准化初始状态下完成简单叠衣动作，一旦面对真实家庭场景中衣物褶皱堆叠、随机朝向、局部缠绕等复杂工况，极易出现抓取落空、折叠错位、流程中断等问题，无法实现稳定落地与规模化应用。

在此背景下，招商局狮子山人工智能实验室联合智谱具身智能部门参加了ICRA 2026官方竞赛之一的LeHome Challenge。

该赛事聚焦家庭场景中的衣物操作，在其仿真环境中使用SO101双臂将衣物从展平状态开始折叠，考察具身模型在复杂柔性物体和丰富交互形式中的理解与操作能力。

多重技术优化，探索虚实迁移破局思路

基于赛事官方训练数据和仿真环境，招商局狮子山人工智能实验室团队（以下简称“实验室团队”）将训练、部署、轨迹采样、Real2Sim遥操作串联为数据迭代管线。

官方环境通过纹理、光照与衣物初始位姿的随机化，为策略提供了多样化的视觉与物理条件。

实验室团队在轨迹采样过程中进一步引入扰动与增广，围绕抓取点偏移、展开不足、边缘未对齐、折叠错位等典型失败模式扩展状态分布，并结合Real2Sim遥操补充仿真中难以覆盖的状态，将高质量操作经验回流至仿真训练流程，帮助策略在“训练—部署—采样—增广—回流”的循环中逐步提升叠衣任务表现。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

为实现高效的模型策略迭代闭环，实验室团队在训练层面引入多模态大模型训练框架中的分布式并行策略、高性能算子和多模态数据流优化方案，使训练吞吐提升5倍以上；在评测方面，对官方仿真环境进行并行化改造，提升本地评测效率4倍以上，支持评测所需的异构计算资源横向扩展。

最终，通过仿真赛阶段的策略迭代与验证进入了LeHome Challenge 2026的决赛圈。

但仿真环境的优异表现，无法直接等同于真机落地能力。当优化后的策略部署至SO101实体机器人后，虚实迁移的核心鸿沟显现。

受到打印件刚性、装配精度、夹爪稳定性与控制误差等因素影响，仿真中稳定的抓取、拉平和折叠动作，进入真机后可能表现为抓空、夹取不稳、动作偏移，导致质量下降。

再加上SO101的5 DoF本体特性，放大了真实场景的状态的多样性与随机性，更多的长尾状态成为真机验证中必须被观察和处理的困难。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

△在SO101真机环境中，衣物状态变化与执行误差会进一步放大操作难度

具身模型进入真实物理世界进行迭代，同时也暴露模型算法、硬件本体之外的系统性问题。

仿真中得到的策略需要接入真实本体，并通过运动控制、执行约束和安全机制转化为可连续执行的真机动作；真实运行中的状态变化、动作偏移和异常情况，也需要被及时观察、记录和处理。

每一次真机执行都不再只是一次独立尝试，而是连接训练、部署、本体控制、图传观察、状态记录、人工接管和后续优化的一环。

正是在这条被拉长的运行链路中，具身智能对系统级基础设施的需求变得清晰起来。

自研LiOS架构，搭建端云协同智能基座

SO101真机叠衣背后，暴露出具身智能实践过程中的两个核心问题。

第一个问题，是机器人技术栈与大模型技术栈交叉后带来的系统复杂度。

机器人本身已经涵盖硬件本体、传感器、末端执行器、运动控制、安全执行和仿真环境；大模型体系同样依赖分布式训练、数据治理、推理优化、模型服务和云端资源管理。

近两年具身智能的爆发，正发生在这两个复杂工程体系的交汇处：上层是多模态具身大模型训练算法与框架、部署服务和数据湖仓，中间是仿真评估、算力调度、存储系统与端云网络传输，底层是真实本体、运动控制和安全执行。

缺少系统级的资源纳管与统一开发接口时，真机系统很容易退化为高度定制化的集成，难以复用、扩展和持续迭代。

第二个问题，是具身智能对计算、数据和模型规模的持续需求。

机器人要获得更强的感知、推理和动作生成能力，必须调用更大规模的基础模型、更高效的数据系统和更充足的训练推理资源；而端侧本体又必须保持轻量、稳定、低功耗和实时安全，很难独立承载这些能力。

真正释放具身大模型潜力的关键，在于让端侧机器人摆脱本地资源上限，充分利用算力、数据湖仓和训练推理框架等各类云端资源。

LiOS的理念，是把具身智能从分散的系统集成，推进到OS级的统一基础设施。

它一方面面向复杂技术栈，统一纳管模型、数据、算力、硬件、仿真、网络与人机协同组件，对上提供稳定开发接口，对下适配各类机器人系统与基础设施差异；

另一方面，面向智能能力扩展，构建基于低延迟图传与状态同步的端云协同链路，让云端大模型、数据湖仓和训练推理资源进入真实机器人现场，使具身模型充分利用云端资源，支撑端侧实时的执行任务。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

LiOS是由云侧、端侧和端云协同共同构成一套围绕具身操作模型迭代展开的基础设施。

云侧面向智能的规模扩展。

云端基础设施决定了具身大模型能力的上限。LiOS云侧涵盖多模态大模型分布式训练与推理优化、多模态数据湖仓管理、高并发仿真评估等核心模块，支撑模型参数向百亿规模扩展，同时保证大规模数据的获取、清洗、训练和评估效率。

在此基础上，LiOS可在更大参数规模的前沿预训练模型基座（如Qwen3-VL-30B-A3B / Qwen3-VL-235B-A22B、Wan2.2-T2V-A14B、DINOv3、V-JEPA-2等）之上构建各类型具身基础模型（VLA、WAM、WM等），提升模型语义理解、细粒度视觉感知、动作精细度等方面的能力。

端侧面向真实机器人稳定执行。

LiOS Runtime接入异构机器人本体、传感器、末端执行器和边缘计算单元，实现传感器同步、运动控制、安全执行、接管恢复及本地状态管理。

端侧系统保持严格的实时性与安全边界，使云端训练出的模型能力能够可靠落地到机械臂和执行器上。

结合Real-time Chunking等优化策略，LiOS能将大规模模型生成的动作指令转化为可实时执行的动作序列，为模型从规模扩展向真实执行提供系统支撑。

端云协同是释放云端资源的关键，负责将真实机器人现场以低延迟、可计算的数据流接入云端，并在模型推理、远程接管和数据回流之间形成闭环。

LiOS在这一层不仅完成控制信令与状态同步，还将图传作为关键数据通路：端侧多路视觉、机器人状态、动作过程和接管信号通过WebRTC/GStreamer稳定进入云端，支撑在线推理、rollout记录和运行复盘。

不同于面向人类观看的通用视频流，LiOS图传组件围绕“画面直接进入云端模型”设计，通过GPU编码、GPU解码和 GPU侧色彩转换减少CPU-GPU往返搬运，使视觉输入更快进入模型推理链路。

同时，实验室团队采用靠近云端推理服务的近网中继方案，适配实验室内网、企业网络和云厂商VPC等复杂环境，在保证网络可达的同时减少公网绕行。

结合多路相机并发上云能力，端云协同将真实执行现场、云端模型能力和human-in-the-loop数据闭环连接起来，成为LiOS支撑具身模型持续迭代的重要基础设施。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

△LiOS端云协同-图传架构

在跨机测试中，LiOS图传方案实现了约30ms（网络部分24ms）的“本地相机到云端显存”单向端到端延迟，较Livekit为代表的通用中继方案在TCP隧道条件下（77ms）以及跨区公网Cloud部署下（165ms）加速2.1～6.9倍。

吞吐方面，单路GPU图传可达到每秒数千帧量级的解码吞吐，为多路、高帧率视觉接入预留了充足余量。

在真实场景下，图传链路与云端推理优化协同，使LiOS在相同任务和模型设置下，云端部署能够实现高于端侧5090的推理频率。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

由此，LiOS将具身操作模型迭代中的数据采集、模型训练、真机部署和闭环优化统一纳入基础设施：

采集阶段支持多种方案接入，完成真实轨迹的获取、标注与质检；
训练阶段依托云端算力和多模态数据湖仓，完成策略训练、微调、评估与版本管理；
部署阶段通过LiOS Runtime接入机器人本体、传感器和执行链路，在真实任务中验证稳定性并优化部署效果；
强化与闭环优化阶段，则通过云端图传支持远程观察、人工接管和动作纠偏，将高价值纠偏样本及上下文沉淀为后续训练和策略优化的数据资产。

真实叠衣任务检验跨本体、跨衣物、抗干扰能力

基于LiOS，招商局狮子山人工智能实验室实现了叠衣任务向不同机器人平台、不同衣物结构、不同初始状态和不同操作细节的平行扩展。

1. 多双臂平台并列叠衣

在LiOS的统一接入与运行支撑下，三类自由度、控制接口、运动范围、末端执行器和执行精度不同的机器人双臂平台均完成同类叠衣任务。

LiOS通过统一的接入、任务编排与控制执行框架，屏蔽不同机器人本体之间的差异，使上层策略无需重复搭建运行链路即可部署到多种硬件平台。

这体现了LiOS对多本体接入与运行适配的支撑能力。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

2. 多类衣物折叠：短袖、长袖、裤子

不同衣物类别对应不同结构特征、状态变化和操作约束。

短袖需要关注衣角、肩线、袖口和下摆之间的相对关系；

长袖需要处理更长的袖身和袖口，稍有偏差就可能导致袖子缠绕、折叠错位或局部堆叠；

裤子则包含裤腿展开、裆部定位、左右对称关系和长条形结构对齐等环节。

不同衣物在结构、比例和可操作部位上存在差异，要求模型根据衣物类型动态调整关注区域、操作顺序和折叠方式。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

通过短袖、长袖、裤子等多类衣物的真机折叠展示，可以看到上层策略具备面向不同衣物结构的操作适应能力，而LiOS则为具身模型在真机上的稳定部署和连续执行提供了系统支撑。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

3. 大形变整理：从褶皱状态到可折叠状态

真实场景中，衣物很少以理想的展平姿态出现在桌面上。

面对褶皱、翻折、遮挡或局部堆叠等状态，机器人需要先通过大幅度的甩、拖动、拉直，将衣物整理成展平状态。

这一过程既考验模型对衣物关键部位的识别和抓取决策，也考验系统将大幅度动作稳定执行到真机上的能力。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

4.精细整理动作：翻腕、拉平、对齐、压边

叠衣任务的难点不止在于将衣物展开，更在于对柔性物体局部状态的持续判断与精细调整。

相比单一的展开动作，完整折叠需要机器人在操作过程中处理裤腿卷曲、边缘错位、裤腰双层等细节，并据此选择拉平、对齐、翻折、压边等动作。

在这一过程中，模型负责理解衣物的局部形态并生成操作策略；LiOS则承载策略推理、动作调度和双臂控制链路，使这些细粒度动作能够稳定落到真实机器人执行中。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

△裤腿卷折的随机性是叠任意状态的裤子的主要难点之一，考验模型的精细操作能力以及复杂状态的鲁棒性

5. 连续叠衣：从单次成功到长程稳定运行

系统能力需要体现在持续、稳定地完成一组衣物折叠任务上。

连续处理多件衣物时，系统需要在不同衣物、不同初始状态和不同执行状态之间切换，并在每轮任务结束后稳定进入下一轮操作。

这类长程任务更能检验LiOS在各类真机任务的稳定性，同时检验上层策略在连续任务中的泛化和异常恢复能力。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

△长程多类衣物折叠，处理更复杂的任务状态

通过大量实践可以看到，真机任务迭代是一组由模型能力、机器人本体适配、真机控制和运行基础设施共同支撑的系统工程。

LiOS将模型、硬件、控制与数据闭环整合为一套可运行、可复用、可迭代的机器人系统工程框架，保证各环节稳定协同，支撑具身模型在不同硬件平台、不同衣物结构和不同真实操作条件下完成复杂任务，并在实际运行中积累失败数据，反向推动模型与执行链路的持续优化。

开源赋能行业，助力具身智能走向千家万户

为推动柔性机器人操作领域技术迭代与生态共建，招商局狮子山人工智能实验室将逐步开放LiOS基础组件与数据资源，帮助研究者和开发者更高效地构建、复现和迭代真实机器人任务。近期，其将开源LiOS的低延时图传模块和LeFold数据集。

1.LiOS的低延时图传模块

低延迟图传是端云协同的核心能力。

本次开源的LiOS图传组件可将多视角画面稳定传入云端显存并转为模型可用张量，支撑云端推理、远程观察和真机强化学习等各流程。

相关代码、部署文档与示例已同步开源，可访问LiOS开源仓库了解详情并参与共建：

cmriat/LiOS（https://github.com/cmriat/LiOS）

2.LeFold：SO101高质量叠衣数据集

SO101具备低成本、易复现、适合教学与研究验证等特点，是承接LeHome现场真机赛任务验证和社区复现实验的重要平台。

围绕SO101，招商局狮子山人工智能实验室将持续整理叠衣服场景相关真机数据，包括不同衣物、不同初始状态、不同操作阶段下的真机执行过程。

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

△LeFold数据示例

作为开放生态的一部分，招商局狮子山人工智能实验室将向社区陆续开源沉淀的真机叠衣操作数据（https://huggingface.co/collections/cmriat/lefold），用于支持开发者复现实验、训练策略和评估算法。

相关的数据处理与模型训练recipe和模型权重，也将逐步开源在cmriat/LiOS开源仓库。

在具身智能领域，高质量真机数据，尤其是覆盖长程柔性操作、双臂协同和失败恢复过程的完整轨迹，是策略泛化与真实部署的重要瓶颈。

此次开放的数据集包含多材质衣物折叠的全流程记录，涵盖多视角视觉观测、机器人关节状态和人工接管标注，旨在为研究者提供面向真机柔性物体操作的可靠数据基础。

当机器人能够从容面对一团凌乱的衣物时，具身智能才算真正迈出走进千家万户的第一步。

相信通过此次开源，将为具身智能发展注入新的动力。

关于招商局狮子山人工智能实验室

招商局狮子山人工智能实验室由百年中央企业招商局集团在2024年9月建立，秉承“将智能赋予机器，把温暖送给人类”的使命愿景，聚焦具身智能与大模型融合发展的前沿方向，重点布局具身基础模型、Embodied Reasoning、大模型后训练算法与框架等核心研究。

实验室以“Robot × Agent”为技术主线，构建覆盖多模态数据、模型训练、后训练优化、具身推理、机器人策略学习、全身运动控制、先进定位导航的全栈技术体系，致力于突破智能体从数字空间走向物理世界的关键技术瓶颈，推动机器人具备更强的感知、理解、推理、决策与泛化执行能力。

文献参考
1.Black K, Brown N, Driess D, et al. π_0: A Vision-Language-Action Flow Model for General Robot Control[J]. arXiv preprint arXiv:2410.24164, 2024.
2.Dyna Robotics. DYNA-1: Commercial-Grade Robots for Real-World Automation[EB/OL]. (2025-06)[2026-05-28]. https://www.dyna.co/research/dyna-1.
3.Li Z, Yang Y, Xie S, et al. Lehome: A simulation environment for deformable object manipulation in household scenarios[J]. arXiv preprint arXiv:2604.22363, 2026.
4.Hugging Face. LeRobot documentation: SO-101, v0.5.1[EB/OL]. (2026-04-07)[2026-05-28]. https://huggingface.co/docs/lerobot/so101.
5.5 LeHome Challenge. https://lehome-challenge.com/

文章来自于"量子位"，作者 "允中"。

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner