LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

AI技术研报 2026-05-22 09:27

+10554 阅读

2026 年，世界动作模型（WAM）在具身智能领域逐渐成为一个集中讨论的方向，英伟达等公司也陆续在这一领域投入资源。

这类模型要做的事情，大致可以分成两部分：一是从数据中学习现实世界里常见的变化规律，二是学习机器人能用来介入这些变化的各类动作。但一个悬而未决的问题是 —— 世界模型“看懂了”环境变化，动作策略却依然“做不对”，中间的传导断层怎么补？

最近，卧安机器人（OneRobotics，6600.HK）发布的 OneModel 1.7 FrontoStria-RL 给出了一种回答。该模型在 LIBERO 标准测试中取得 99% 平均成功率，超越 π0.5、GR00T-N1.5、OpenVLA-OFT；真机日常操作成功率 99%，高精度任务 97%，真人对打乒乓球接球 91.2%。这组成绩背后的核心不是更大的参数规模，而是一条从世界理解到动作执行的隐式传导通路 ——Predictive Policy Latent，以及让这条通路持续进化的 RL 闭环机制。我们来拆解一下它的技术细节。

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

图 1：标准 LIBERO 平均成功率对比。One Model 1.7 以 99% 领先于 π0.5、GR00T-N1.5、OpenVLA-OFT 等主流公开模型。

一、机器人在你家厨房，

为什么总是 "看懂了却做不对"？

想象一个场景：机器人昨天在你家厨房洗完碗，顺利把碗放回了橱柜。今天你把碗架挪到了右边，橱柜门也换了个角度 —— 对人来说这根本不算事儿，但对机器人来说，这可能就是一个 "从没见过的全新任务"。

这不是个别现象。家庭环境是具身智能最难、也最有价值的战场：没有两间完全相同的厨房，没有两个摆放一致的客厅，每天的任务组合也在不断变化。机器人不仅要精确完成叠衣、端碗、收纳等动作，还得在物品陌生、光照变化、户型各异的情况下，仍能读懂意图并做出合理行动。更不用说拔插试管、倒咖啡豆这类容错空间极小的高精度操作，或者真人对打乒乓球这种对实时感知和高速响应要求极高的极限场景。

这背后的技术困境，可以归结为当前两条主流路线各自的瓶颈。

VLA（Vision-Language-Action）路线做得很直接：把视觉观测和语言指令端到端映射成机器人动作，在训练数据覆盖充分的场景中表现高效。但问题在于，物体位置变了、视角偏了、光照换了，动作策略就容易出错；碰到多阶段的复杂任务，也容易在中途丢失全局目标。

World Model 路线走的是另一条路，试图让模型建立对环境状态和任务演化的预测能力 —— 物体关系、空间结构、动作后果。理论上泛化潜力更强，但落地时有一个核心难题：世界模型 "看懂了"，不代表动作策略就 "做对了"。如果用显式的未来图像或中间坐标来衔接动作模块，会引入生成误差、信息冗余和推理延迟；如果不做有效传导，"理解世界" 和 "动得准" 之间就存在一道断层。

OneModel 1.7 要解决的核心问题，正是这道断层。

二、Predictive Policy Latent：

打通断层的隐式通路

OneModel 1.7 FrontoStria-RL 采用卧安自研的 RL-Latent World Action Model 架构（ RL-LWAM），其完整信息流如下：

Instruction / Observation / Skill → World Model → Predictive Policy Latent → Understand Expert → Action Expert → Robot Execution → RL / Success Memory / HITL ↺

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

图 2：One Model 1.7 FrontoStria-RL 完整架构。 Predictive Policy Latent 作为核心传导机制，连接 World Model、Understand Expert 与 Action Expert。

整个架构由三个模块组成：World Model 负责跨场景泛化，Understand Expert 负责任务理解与 Skill 调度，Action Expert 负责精准执行。但让这三个模块真正 "通" 起来的关键，是中间的 Predictive Policy Latent。

"FrontoStria" 这个名字是什么意思？

FrontoStria 来自神经科学中的 "额纹状体通路"（ Frontostriatal Pathway） —— 大脑中连接前额叶皮层（负责决策和规划）与纹状体（负责动作执行）的神经回路。这条通路的核心功能，正是将高层认知决策传导到底层运动执行。

OneModel 1.7 的 Predictive Policy Latent 扮演的就是这条通路的角色：将 World Model 对场景的高层理解（ "前额叶"），隐式传导到 Action Expert 的动作生成（ "运动皮层"）。

Predictive Policy Latent 具体怎么工作？

传统方案要把世界模型的理解传给动作模块，通常的做法是生成预测图像（ "我预测未来场景长这样"）或输出显式目标坐标（ "目标物在 xyz 位置"）。但这些方式有三个代价：像素冗余（传了很多与决策无关的信息）、生成幻觉（预测图像本身可能有误差）、模块割裂（上下游耦合度低）。

Predictive Policy Latent 的做法不同。它用一种面向动作策略的隐式表征来替代显式信号 ——

训练阶段：模型可以 "看到" 动作执行后的未来观测结果，以此塑造对任务后果的理解，形成隐式的物理推理表征
部署阶段：模型不再依赖未来信息，仅凭当前观测即可输出等效的调制信号

换句话说，这条隐式通路在训练时用 "未来信息" 来教会模型什么是好的动作决策方向，部署时则只靠当前观测就能做出等效判断 — 信息密度更高，推理更快，且不引入生成式噪声。

这正是 OneModel 1.7 区别于现有方案的核心设计：不是把 VLA 和 World Model 简单拼在一起，而是用一条隐式通路真正把世界理解传导到动作执行。

三、RL 闭环 + Retrieve-then-Steer：

让通路持续进化

光打通这条通路还不够。训练完成后模型参数固定，面对真实部署中的长尾场景 — 手滑了、物体形变了、用户临时介入了 — 零样本泛化总有边界。

OneModel 1.7 的第二个核心设计是让这条通路不是一次性的，而是持续增强的。这也是模型代号中 "RL" 的含义。

强化学习闭环

在明确奖励、安全约束和人在环监督（ HITL）下，模型通过真实任务反馈进行策略优化，突破模仿学习 "只能模仿示范数据" 的上限，发现更稳健、更高效的执行路径。

Retrieve-then-Steer：越用越好的成功记忆

这背后有一个关键观察：现有评测把每次测试视为独立的零样本试验，但真实机器人往往在同一个或缓慢变化的环境中反复操作 — 昨天成功洗过的碗，今天大概率还是用类似的方式洗。成功执行本身就是 "经过环境验证的可靠行为模式"。

具体机制如下：

存储：部署过程中，将经过进度校准的成功观测 - 动作片段存入长期记忆（Success Memory）
检索：推理时，检索与当前状态相关的动作块
过滤：通过轨迹级一致性过滤不一致的候选
引导：聚合为精英动作先验，通过 Confidence-Adaptive Prior Guidance 注入 flow-matching 动作采样器的中间状态，根据检索置信度自适应调整引导强度

这意味着 OneModel 部署后可以 "越用越好"— 同一个家庭的环境相对固定，机器人每天积累的成功经验会持续提升后续任务的成功率，而且这个过程是轻量级的、非参数的。

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

图 3：SimplerEnv 平均成功率对比。 Retrieve-then-Steer 将 CogACT 的平均成功率从 75.8% 提升至 79.5%，提升 3.7 个百分点。

RL 闭环和 Retrieve-then-Steer 的关系是互补的：RL 解决的是能力上限问题（突破模仿学习天花板），Retrieve-then-Steer 解决的是部署适应问题（无需重训即可自适应）。两条路径共同让 Predictive Policy Latent 这条传导通路从 "一次性连通" 变成 "持续增强"。

四、支撑通路的两个关键模块

Predictive Policy Latent 这条主通路要跑得好，还需要两个支撑模块在通路的中段和末端分别解决问题。

Understand Expert + Skill：通路中段的任务规划

真实操作任务往往包含明确的阶段划分和子目标依赖：叠衣服要先展平、再对折、最后整理边缘；洗碗机操作要识别碗碟类型、选择摆放位置、确认关门。这些结构化的操作规程，既不属于 World Model 的环境建模，也不属于 Action Expert 的动作生成，而是连接理解与执行的中间层。

Understand Expert 在架构中承担的就是这个角色：接收 Predictive Policy Latent 的调制信号，对任务进行结构化分解 —— 识别阶段、确定子目标依赖、调度对应的 Skill 序列。面对新任务组合时可以复用已有 Skill，面对长流程时不丢失阶段目标。

MCF-Proto：通路末端的动作鲁棒性

当前 VLA 模型的骨干（ backbone）、预训练和数据集都在快速进化，但 action head 几乎是同质的 —— 大多在固定的世界坐标系下直接预测动作命令。这种方式对相机视角变化和机器人初始位姿偏差非常敏感。

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

一个有趣的发现是：无需显式的方向标签，学到的局部坐标系会自发形成稳定的几何结构，其坐标轴与示教中末端执行器的运动方向高度一致。动作表征也变得更加紧凑，由更少的主方向捕获变化，并由共享原型更规则地组织起来。

在 LIBERO-plus 扰动测试中， MCF-Proto 在七类扰动中六类取得最优结果。最值得关注的是两类几何扰动 ——Camera（相机视角变化）领先最强基线 3.3 个百分点（69.7% vs. 66.4%），Robot（机器人初始位姿偏差）领先 15.7 个百分点（66.0% vs. 50.3%）。这两类恰恰是家庭环境中最常见、也最影响动作执行的变化。

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

图 4：LIBERO-plus 七类扰动鲁棒性对比。 MCF-Proto 在 Camera 和 Robot 两类几何扰动下优势最为显著。

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

图 5：One Model 1.7 FrontoStria-RL 四大核心技术模块总览。

五、OneModel 1.7 与主流具身智能模型对比

为了更清晰地理解 OneModel 1.7 在当前技术格局中的位置，以下将其与主流具身智能模型做一个架构层面的对比：

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

OneModel 1.7 的两个独特之处在这张表中非常清晰：

1. 唯一的隐式传导通道。从 "规划 / 中间表征" 一行可以看到，π0.5 和 GR00T N1.7 没有显式规划表征；π0.7 通过未来图像或子目标图像承载世界模型输出，DreamZero 进一步生成未来视频。OneModel 1.7 走了一条不同的路：通过 Predictive Policy Latent 将世界模型的高层理解以隐式表征直接传导到动作策略，不生成任何中间图像或视频，实现了世界理解到动作执行之间的低冗余连通。

2. 唯一的强化学习闭环。从 "强化学习闭环" 一行可以看到，π0.5、GR00T N1.7、π0.7 和 DreamZero 的核心范式都不依赖部署后的强化学习闭环。OneModel 1.7 的定位不同：它把隐式 WAM 与强化学习结合起来，让机器人在日常使用中积累成功经验，并通过 Retrieve-then-Steer 在不更新模型参数的情况下提升后续任务的成功率。

六、真机验证：从叠衣服到打乒乓球

benchmark 成绩只是一部分。OneModel 1.7 在真实机器人平台上覆盖了三类难度梯度的任务。

日常操作：平均成功率 99%

洗衣服、叠衣服、洗碗机操作、传送带拿取物品 —— 这些任务涉及柔性物体操作、多阶段流程和环境多样性，要求模型在泛化理解与稳定执行之间取得平衡。

高精度操作：平均成功率 97%

拔插试管、叠纸杯、倒咖啡豆 —— 容错空间极小，对末端位置精度、姿态控制和力控稳定性要求很高。MCF-Proto 围绕局部运动结构组织动作原型的设计，在此类任务中体现出显著优势。

极限动态：乒乓球接球成功率 91.2%

真人对打乒乓球对实时感知、轨迹预测和高速动作生成要求极高，是 "高动态 + 高精度" 的典型代表。World Model 提供来球轨迹的快速预测，Action Expert 在极短时间窗口内生成精准动作，RL 闭环通过大量对打训练持续优化击球策略。

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

图 6：日常操作与高精度任务真机验证成功率。

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

图 7：真人对打乒乓球动作阶段成功率。接球成功率达到 91.2%。

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

总结

OneModel 1.7 FrontoStria-RL 回应的是具身智能从实验室走向真实部署时面临的一组系统性问题 —— 世界模型的理解如何传导到动作执行、任务如何结构化分解、动作如何对环境扰动保持鲁棒、模型如何在部署后持续进化。

它给出的回答是：用 Predictive Policy Latent 建立一条隐式通路，让世界理解真正驱动动作策略；用 Understand Expert + Skill 体系为长程任务提供结构化规划；用 MCF-Proto 让动作表达对几何扰动保持稳定；用 RL 闭环和 Retrieve-then-Steer 让整个系统越用越好。

家庭机器人要真正走进日常使用，靠的不是更大的参数规模，也不是在特定场景下偶尔成功的演示，需要的是一套能同时处理泛化、执行和持续更新这三件事的模型系统。

OneModel 1.7 FrontoStria-RL 是卧安在这个方向上的一次阶段性工作。对卧安而言，模型发布并不是孤立的技术事件，而是与其家庭机器人本体、真实场景数据采集和服务部署体系共同构成闭环。随着卧安机器人围绕真实家庭与服务场景推进 OneModel 模型的迭代，相信在不久，机器人将从 “能看懂、能行动”，进一步走向 “能适应、能进化、能持久可靠地工作”。

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

论文链接：https://arxiv.org/abs/2605.11809

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

论文链接：https://arxiv.org/abs/2605.10094
官网详情：https://www.onerobot.com/OneModel

文章来自于"机器之心"，作者 "机器之心"。