在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

正文

资源拓展

2026-03-18 14:05

在具身智能的发展路径中，视觉 - 语言 - 动作（VLA）模型正逐步成为通用操作任务的核心框架。但当任务进入长程规划、柔性物体操作、精细双臂协同、动态交互等复杂场景时，VLA 仍然面临两个根本性挑战：

1. 模仿学习在推理中的长序列误差累积；

2. 真机强化学习成本过高，难以规模化。

香港大学李弘扬老师带领的OpenDriveLab 团队近期提出的（RISE（χ0-RL））（Reinforcement learning via Imagination for SElf-improving robots），给出的核心答案是：

通过构建组合式、多视角世界模型，让机器人在想象的虚拟空间中完成强化学习，无需大规模真机交互，却能让长程任务性能实现跨越式提升，部分任务成功率较 SOTA 基线涨幅超 45%。

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

目前，该研究的论文已正式发布，项目主页、论文与 arXiv 链接均已开放，代码也预计于三月内完成开源。

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

项目主页：https://opendrivelab.com/kai0-rl/
论文链接：https://arxiv.org/pdf/2602.11075
arXiv 链接: https://arxiv.org/abs/2602.11075
团队官网：https://opendrivelab.com/

传统 VLA 落地的三重枷锁：

偏差难纠，试错昂贵

VLA 模型的落地难题，本质上源于模仿学习的先天缺陷与真机强化学习的现实壁垒，而现有世界模型的技术短板，更是让虚实结合的尝试难以落地，三重枷锁层层制约，让 VLA 在长程复杂任务中难以施展。

第一，模仿学习的暴露偏差

当前主流 VLA 依赖专家演示数据训练，只学习「成功路径」。

问题在于：

从未见过失败状态
不会恢复
长程任务中误差逐步放大

这使得模型在真实执行中一旦偏离专家轨迹，几乎无法自我修正。

第二，真机 RL 的三重现实难题

理论上，强化学习可以解决暴露偏差问题，但在真实世界中存在三大约束：

样本效率低：需要海量的交互数据支撑，动辄数百万次的尝试让训练周期无限拉长；
安全风险高：探索性的操作极易造成机器人硬件磨损、损坏，带来直接的经济损失；
重置成本高：现实世界缺乏模拟器的自动重置机制，一次失败后的环境恢复需要大量人工介入，效率极低。

第三，现有世界模型的能力短板

为弥合虚实差距，学界曾尝试用生成式世界模型模拟物理环境，但这类模型往往难以同时兼顾动作可控性和长程一致性：

无法精准跟随动作指令
在长序列视频预测中出现画面失真
违背物理规律

因此，仅靠世界模型根本无法作为强化学习的有效训练环境。

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

RISE 框架概览：(a) 传统物理世界强化学习受限于硬件和重置成本；(b) 在组合式世界模型中进行在线学习；(c) 在真机任务上的显著提升。

RISE 破局：

组合式世界模型 + 想象空间自进化循环

RISE 的核心创新，在于将物理环境的交互完全迁移到组合式世界模型构建的想象空间中，通过虚实解耦的设计，既解决了世界模型的高保真模拟问题，又构建了高效的策略自进化闭环，让机器人在虚拟空间中完成试错 - 学习 - 优化的全流程。

组合式世界模型：

解耦设计，兼顾模拟精度与评估能力

与传统单一世界模型不同，RISE 将世界模型解耦为可控动力学模型和进度价值模型两个独立优化的模块，各司其职，实现了高保真的物理模拟与精准的轨迹价值评估。两个模块均采用了成功和失败（例如，基础 VLA 模型在推理过程中的失败数据）的任务数据进行训练，防止了模型的过拟合以及高度自信。

1. 可控动力学模型（模拟器）：通过 Task-Centric Batching（任务中心化批处理）策略，微调时每个 batch 集中采样少数特定任务的多种动作变体，有效过滤无关背景噪声，专注于动作指令的跟随。这让虚拟模拟的动作与真实操作高度对齐，解决了「手不跟脑」的问题；

2. 进度价值模型（裁判员）：融合进度估计和时序差分学习（TD Learning），前者为长程任务提供密集的奖励信号，让模型清晰感知每一步操作的任务推进度；后者则增强了模型对细微失败（如抓取滑落、位置偏移）的敏感性，确保在长序列操作中能精准评估「这步走得对不对」。

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

想象空间自进化循环：

三步实现无真机的策略迭代

在组合式世界模型构建的高保真思维沙盒中，RISE 设计了完全在想象空间运行的在线强化学习闭环，无需任何真机交互，就能实现策略的高效迭代，整个过程分为三步：

1. 第一步 Rollout 阶段

VLA 策略与动力学模型交互，根据当前状态生成未来的视频预测序列，模拟不同动作带来的环境反馈；

2. 第二步评估阶段

进度价值模型对所有想象出的轨迹进行评分，计算优势函数（Advantage），区分高价值（成功）和低价值（失败）的动作路径；

3. 第三步训练阶段

利用高低价值的想象数据，通过流匹配目标更新 VLA 策略，让模型持续强化成功路径、规避失败路径，实现自我进化。

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

RISE 架构解析：

虚实解耦，让想象贴合真实物理规律

RISE 的架构设计，本质上是通过解耦和对齐，让虚拟的想象空间无限贴近真实物理世界，为策略优化提供稳定、可靠的训练环境，其核心逻辑可总结为模型解耦建沙盒，轨迹迭代优策略。

组合式世界模型的解耦设计，从根源上解决了传统世界模型模拟与评估不可兼得的问题：可控动力学模型负责打造高保真的物理模拟沙盒，确保动作与视觉反馈的一致性、长程性；进度价值模型则充当精准的裁判，让模型能在复杂的长程任务中清晰判断每一步操作的价值。

而想象空间的自进化闭环，则让强化学习的试错完全脱离真机：同一初始状态下，模型会生成多种不同的动作轨迹，通过自我博弈完成策略优化，这种方式既避免了真机试错的成本与风险，又让模型学会了从失败中恢复的能力 —— 这正是传统模仿学习所不具备的核心能力。

此外，RISE 的设计还充分考虑了离线数据的分布限制，通过同时利用在线动作和在线状态，让模型能接触到更多未知状态的高价值动作，为后续的真实环境泛化打下基础。

实测见真章：性能飙升、

泛化抗扰，想象训练练就真机硬实力

研究团队在三大极具挑战性的真机长程任务中对 RISE 进行了系统评估：动态积木分拣（动态物体操作）、背包装袋（柔性物体操作）、纸盒闭合（精细双臂协同），从性能、组件必要性、泛化抗扰能力、生成质量四个维度，验证了方法的有效性，各项结果均展现出显著优势。

性能飙升：长程任务成功率大幅超越 SOTA

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

相较于 π₀.₅、RECAP、DSRL 等 SOTA 基线，RISE 在所有任务中均实现了成功率的跨越式提升，尤其在柔性物体和精细操作任务中表现亮眼：

动态积木分拣：成功率从 RECAP 的 50% 提升至 85%，涨幅 35%；
背包装袋：成功率从 30% 提升至 85%，涨幅 45%，攻克了柔性物体操作的难点；
纸盒闭合：成功率高达 95%，完美解决精细双臂协同的精度问题。

组件验证：每一环设计都是性能关键

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

消融实验充分证明了 RISE 各模块设计的必要性，任何一个组件的缺失，都会导致性能的显著下降：

去除 Task-Centric Batching，动力学模型的动作控制能力大幅下降，任务完成率直接下跌；
去除 TD Learning，价值模型无法敏锐捕捉细微失败状态，策略优化失去方向；
脱离在线动作 + 在线状态，模型难以突破离线数据的分布限制，泛化能力大幅降低。

泛化抗扰：不再「死记硬背」

RISE 训练出的策略不再是机械模仿专家，而是具备了「从失败中恢复」的真实智能：

抗干扰：面对人为干扰带来的意外状态（如物体被推离原位、抓取滑落），模型能主动调整动作，从失败中恢复并完成任务；

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

位置泛化：即使被操纵物体的摆放位置发生变化（如折叠衣服、书包的位置偏移），模型仍能精准完成操作，无需重新训练。

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

生成质量：物理规律的高保真复刻

在模型生成质量的定量与定性评估中，RISE 的动力学模型表现远超 Genie Envisioner、Cosmos 等基线模型：

定量指标：在 FVD（Fréchet 视频距离） 和 EPE（动作误差） 上均实现最优，视频生成精度和动作跟随能力更优；

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

定性结果：能生成清晰、符合物理规律的多视角未来帧，无模糊、物体瞬移、动作不一致等问题，且在 Bridge、Galaxea、Agibot World 等大规模数据集上均保持优异表现。

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

所提出的 dynamics model 能够合成连贯的多视角视频滚动，并具有高视觉保真度，为强化学习奠定了坚实的基础。每个视频片段均按从上到下的顺序排列

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

模型能够生成清晰且符合物理规律的未来帧，而基线模型常出现模糊或物体瞬移等物理不一致现象

启示与展望：

从物理试错到思维进化，具身智能的范式跃迁

RISE 的价值，不止于一项技术的突破 —— 它正在重新定义智能体理解世界的方式，正在从物理世界的被动适应转向想象空间的主动进化。

这套框架的核心洞见，是对学习本质的一次深刻重估：面对高动态、富接触、高精度的长程复杂任务，通过构建高保真的组合式世界模型，将昂贵、高风险的物理交互成本，转化为可扩展的计算成本，让机器人在思维沙盒中完成数万次的自我博弈与迭代，远比低效的真机训练更高效。而这种在想象中学会从失败中恢复的能力，正是 VLA 模型从实验室演示走向真实世界落地的关键。

从隐向量世界模型到 RISE 的组合式多视角、像素级世界模型，RISE 完成了一次底层范式的跃迁：想象训练正在成为具身智能发展的核心方向。

未来的图景正在变得清晰：当世界模型的精度逼近物理现实的边界，当千万种任务的执行策略可以在想象中被反复预演、打磨至完美，机器人将真正迎来满级出厂的时代 —— 它们不再需要在真实世界中跌跌撞撞地长大，而是先在高度逼真的思维里完成百万次进化，带着已经炉火纯青的技能无缝落地现实。

这意味着什么？

意味着，物理世界对智能体成长的代价将被大幅降低。

而 RISE，正是通往这个未来的第一块基石。

更多方法细节与实验分析，请见原论文。

文章来自于“机器之心”，作者 “机器之心”。

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

IOS下载

安卓下载

微信群