在具身智能的发展路径中,视觉 - 语言 - 动作(VLA)模型正逐步成为通用操作任务的核心框架。但当任务进入长程规划、柔性物体操作、精细双臂协同、动态交互等复杂场景时,VLA 仍然面临两个根本性挑战:
1. 模仿学习在推理中的长序列误差累积;
2. 真机强化学习成本过高,难以规模化。
香港大学李弘扬老师带领的OpenDriveLab 团队近期提出的(RISE(χ0-RL))(Reinforcement learning via Imagination for SElf-improving robots),给出的核心答案是:
通过构建组合式、多视角世界模型,让机器人在想象的虚拟空间中完成强化学习,无需大规模真机交互,却能让长程任务性能实现跨越式提升,部分任务成功率较 SOTA 基线涨幅超 45%。



目前,该研究的论文已正式发布,项目主页、论文与 arXiv 链接均已开放,代码也预计于三月内完成开源。

VLA 模型的落地难题,本质上源于模仿学习的先天缺陷与真机强化学习的现实壁垒,而现有世界模型的技术短板,更是让虚实结合的尝试难以落地,三重枷锁层层制约,让 VLA 在长程复杂任务中难以施展。
第一,模仿学习的暴露偏差
当前主流 VLA 依赖专家演示数据训练,只学习「成功路径」。
问题在于:
这使得模型在真实执行中一旦偏离专家轨迹,几乎无法自我修正。
第二,真机 RL 的三重现实难题
理论上,强化学习可以解决暴露偏差问题,但在真实世界中存在三大约束:
第三,现有世界模型的能力短板
为弥合虚实差距,学界曾尝试用生成式世界模型模拟物理环境,但这类模型往往难以同时兼顾动作可控性和长程一致性:
因此,仅靠世界模型根本无法作为强化学习的有效训练环境。

RISE 框架概览:(a) 传统物理世界强化学习受限于硬件和重置成本;(b) 在组合式世界模型中进行在线学习;(c) 在真机任务上的显著提升。
RISE 的核心创新,在于将物理环境的交互完全迁移到组合式世界模型构建的想象空间中,通过虚实解耦的设计,既解决了世界模型的高保真模拟问题,又构建了高效的策略自进化闭环,让机器人在虚拟空间中完成试错 - 学习 - 优化的全流程。
组合式世界模型:
解耦设计,兼顾模拟精度与评估能力
与传统单一世界模型不同,RISE 将世界模型解耦为可控动力学模型和进度价值模型两个独立优化的模块,各司其职,实现了高保真的物理模拟与精准的轨迹价值评估。两个模块均采用了成功和失败(例如,基础 VLA 模型在推理过程中的失败数据)的任务数据进行训练,防止了模型的过拟合以及高度自信。
1. 可控动力学模型(模拟器):通过 Task-Centric Batching(任务中心化批处理) 策略,微调时每个 batch 集中采样少数特定任务的多种动作变体,有效过滤无关背景噪声,专注于动作指令的跟随。这让虚拟模拟的动作与真实操作高度对齐,解决了「手不跟脑」的问题;
2. 进度价值模型(裁判员):融合进度估计和时序差分学习(TD Learning),前者为长程任务提供密集的奖励信号,让模型清晰感知每一步操作的任务推进度;后者则增强了模型对细微失败(如抓取滑落、位置偏移)的敏感性,确保在长序列操作中能精准评估「这步走得对不对」。

想象空间自进化循环:
三步实现无真机的策略迭代
在组合式世界模型构建的高保真思维沙盒中,RISE 设计了完全在想象空间运行的在线强化学习闭环,无需任何真机交互,就能实现策略的高效迭代,整个过程分为三步:
1. 第一步 Rollout 阶段
VLA 策略与动力学模型交互,根据当前状态生成未来的视频预测序列,模拟不同动作带来的环境反馈;
2. 第二步 评估阶段
进度价值模型对所有想象出的轨迹进行评分,计算优势函数(Advantage),区分高价值(成功)和低价值(失败)的动作路径;
3. 第三步 训练阶段
利用高低价值的想象数据,通过流匹配目标更新 VLA 策略,让模型持续强化成功路径、规避失败路径,实现自我进化。

RISE 的架构设计,本质上是通过解耦和对齐,让虚拟的想象空间无限贴近真实物理世界,为策略优化提供稳定、可靠的训练环境,其核心逻辑可总结为模型解耦建沙盒,轨迹迭代优策略。
组合式世界模型的解耦设计,从根源上解决了传统世界模型模拟与评估不可兼得的问题:可控动力学模型负责打造高保真的物理模拟沙盒,确保动作与视觉反馈的一致性、长程性;进度价值模型则充当精准的裁判,让模型能在复杂的长程任务中清晰判断每一步操作的价值。
而想象空间的自进化闭环,则让强化学习的试错完全脱离真机:同一初始状态下,模型会生成多种不同的动作轨迹,通过自我博弈完成策略优化,这种方式既避免了真机试错的成本与风险,又让模型学会了从失败中恢复的能力 —— 这正是传统模仿学习所不具备的核心能力。
此外,RISE 的设计还充分考虑了离线数据的分布限制,通过同时利用在线动作和在线状态,让模型能接触到更多未知状态的高价值动作,为后续的真实环境泛化打下基础。
研究团队在三大极具挑战性的真机长程任务中对 RISE 进行了系统评估:动态积木分拣(动态物体操作)、背包装袋(柔性物体操作)、纸盒闭合(精细双臂协同),从性能、组件必要性、泛化抗扰能力、生成质量四个维度,验证了方法的有效性,各项结果均展现出显著优势。
性能飙升:长程任务成功率大幅超越 SOTA

相较于 π₀.₅、RECAP、DSRL 等 SOTA 基线,RISE 在所有任务中均实现了成功率的跨越式提升,尤其在柔性物体和精细操作任务中表现亮眼:
组件验证:每一环设计都是性能关键


消融实验充分证明了 RISE 各模块设计的必要性,任何一个组件的缺失,都会导致性能的显著下降:
泛化抗扰:不再「死记硬背」
RISE 训练出的策略不再是机械模仿专家,而是具备了「从失败中恢复」的真实智能:


生成质量:物理规律的高保真复刻
在模型生成质量的定量与定性评估中,RISE 的动力学模型表现远超 Genie Envisioner、Cosmos 等基线模型:


所提出的 dynamics model 能够合成连贯的多视角视频滚动,并具有高视觉保真度,为强化学习奠定了坚实的基础。每个视频片段均按从上到下的顺序排列

模型能够生成清晰且符合物理规律的未来帧,而基线模型常出现模糊或物体瞬移等物理不一致现象
RISE 的价值,不止于一项技术的突破 —— 它正在重新定义智能体理解世界的方式,正在从物理世界的被动适应 转向想象空间的主动进化。
这套框架的核心洞见,是对学习本质的一次深刻重估:面对高动态、富接触、高精度的长程复杂任务,通过构建高保真的组合式世界模型,将昂贵、高风险的物理交互成本,转化为可扩展的计算成本,让机器人在思维沙盒中完成数万次的自我博弈与迭代,远比低效的真机训练更高效。而这种在想象中学会从失败中恢复的能力,正是 VLA 模型从实验室演示走向真实世界落地的关键。
从隐向量世界模型到 RISE 的组合式多视角、像素级世界模型,RISE 完成了一次底层范式的跃迁:想象训练正在成为具身智能发展的核心方向。
未来的图景正在变得清晰:当世界模型的精度逼近物理现实的边界,当千万种任务的执行策略可以在想象中被反复预演、打磨至完美,机器人将真正迎来满级出厂的时代 —— 它们不再需要在真实世界中跌跌撞撞地长大,而是先在高度逼真的思维里完成百万次进化,带着已经炉火纯青的技能无缝落地现实。
这意味着什么?
意味着,物理世界对智能体成长的代价将被大幅降低。
而 RISE,正是通往这个未来的第一块基石。
更多方法细节与实验分析,请见原论文。
文章来自于“机器之心”,作者 “机器之心”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner