重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

AI技术研报 2026-06-26 11:12

+6882 阅读

「让JEPA首次飞上无人机」

图灵奖得主杨立昆提出的JEPA世界模型理论，终于在敏捷无人机机载高频控制场景完成工程落地了。

伯克利、纽约大学、布朗大学联合发布SkyJEPA，由杨立昆作为核心作者参与，是业内首套适配四旋翼闭环控制的JEPA完整框架。

整套方案避开传统自回归动力学固有的长时序误差漂移问题，搭配物理映射探针与全域随机仿真数据集，仅依靠仿真数据就能直接在室外实机完成复杂轨迹跟踪；

更换桨、加装载荷等硬件失配场景下，轨迹跟踪误差较主流神经网络基线降低30%以上，补齐无人机世界模型长时序稳定、物理可解释、机载实时、零样本泛化四大核心短板，为低成本、低风险无人机自主飞行提供全新技术路线。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| 三类主流自监督学习架构对比示意图（最后一个为JEPA）©【深蓝 AI】编译

1 —

行业固有技术路线的三重先天缺陷

想要看懂SkyJEPA的创新价值，先要理清目前主流无人机动力学建模三条路线各自的短板，这也是论文全部设计的出发点。

1. 第一性物理解析模型

依靠刚体、空气阻力、电机力矩方程搭建理论模型，计算速度快、完全可解释，但现实容错极低。更换螺旋桨、加装货物、电机老化、阵风扰动都会改变动力学参数，每次硬件改动都要重新系统辨识、人工调参，高机动飞行下气动力、桨机耦合等非线性效应无法精准建模，长距离飞行轨迹偏移严重，仅能支撑低速悬停场景。

2. 自回归神经网络动力学（当前行业主流）

离线采集飞行轨迹训练网络，单步预测表现尚可，但底层逻辑存在致命缺陷：每一步预测结果循环作为下一帧输入，微小误差会持续累积。论文实验数据显示，传统自回归模型推演60步后复合误差比值达到2.4，姿态误差突破50度，轨迹彻底违背物理规律。即便叠加物理正则、在线微调，也只能小幅缓解漂移，无法根除迭代带来的误差放大问题，且模型绑定训练时的无人机硬件，改装后精度断崖下跌。

3. 早期JEPA机器人方案（机械臂/地面导航）

作为JEPA理论提出者，杨立昆此前相关研究集中在视觉识别、地面机器人路径规划、机械臂操作领域。这类JEPA方案仅在潜空间做高层运动预判，缺少对接控制器的物理转换模块，同时未适配无人机20Hz以上高频控制、SO(3)姿态流形、四电机耦合约束等特殊需求，只能离线推演，无法接入MPPI、NMPC闭环控制器，始终停留在理论验证阶段，难以实装飞行器。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| 四旋翼世界模型四大核心性能需求示意图©【深蓝 AI】编译

三类方案各有局限，且无法同时解决“长时序推演不漂移、无需大量高危实机试飞、硬件改装不用重新训练、边缘板卡实时运行”四大工程诉求，SkyJEPA正是杨立昆团队将JEPA理论适配机载控制场景的针对性解法。

2 —

潜态预测+物理探针+仿真数据流水线

整套系统由JEPA潜态动力学、物理启发探针、自动化域随机仿真管线三大模块组成，配套轻量化MPPI控制器，网络总参数量仅9K，可流畅运行在Jetson Orin NX这类低成本机载嵌入式设备。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| SkyJEPA 完整框架总览图©【深蓝 AI】编译

2.1 JEPA潜态动力学模型：从根源切断误差累积链路

遵循杨立昆JEPA核心设计哲学：放弃直接预测原始位置、姿态等高维物理状态，转而编码时序信息至低维抽象潜空间，仅预测未来表征，不强制重建全部观测噪声。

模型流程分为编码与潜态推演两步：先用时序卷积网络TCN处理0.5s窗口内的历史状态、电机推力序列，输出稳定潜特征；再依靠单层GRU递归推演多步未来潜向量。

训练损失分为两项：主损失约束推演潜向量与真实编码向量对齐；配套SIGReg各向同性高斯正则，规避网络表征坍缩问题。对比VICReg、BYOL等多重正则方案，SIG仅需单一调参系数，大幅降低工程调试成本。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| 模型两阶段训练流程图©【深蓝 AI】编译

论文提出时序拉直指标量化潜空间平滑度：传统自回归模型时序平滑均值为-0.4，SkyJEPA可达0.75，潜空间轨迹近似平滑直线，不会频繁震荡转向，天然抑制误差叠加。60步长时序推演后，基线误差增长率0.23，SkyJEPA仅0.11，长期稳定性差距显著。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| 时序拉直指标©【深蓝 AI】编译

时序平滑、复合误差仅代表离线无校正纯推演效果，真实飞行中控制器会持续修正偏差，离线误差差距不会完全复刻，但能大幅削减控制器修正幅度，减少电机频繁满负荷运转。

2.2 物理启发探针（PI Prober）：JEPA落地机载控制关键桥梁

此前JEPA难以用于飞行器闭环控制，核心卡点是抽象潜向量无法转化控制器可用的位置、角速度、姿态数据。

SkyJEPA采用两阶段训练机制：潜态网络训练完成后完全冻结权重，单独训练物理探针。

探针仅输出平动、转动加速度残差项，叠加标准四旋翼刚体积分方程迭代更新位姿，积分过程严格采用SO(3)指数映射，规避欧拉角奇异问题。简单来说，基础运动规则由固定物理方程保证，网络仅拟合空气阻力、电机延迟等难以建模的残余非线性。

消融实验差异直观：普通MLP解码器搭配JEPA，60步推演平均位置误差5.56m；替换物理探针后直接降至1.43m，姿态误差从40.2°压缩至4.71°，降幅超85%。所有输出状态具备明确物理含义，可直接代入MPPI完成轨迹代价计算、电机限幅约束。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| 多模型开环推演误差对比曲线©【深蓝 AI】编译

2.3 域随机自动仿真数据集：摆脱高危实机采集依赖

无人机野外高机动试飞成本高、炸机风险大，SkyJEPA搭建全自动仿真数据生成管线，整套训练数据完全在虚拟环境生成，无需人工操控实机采集样本。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| 仿真数据集所用域随机化参数表©【深蓝 AI】编译

高斯过程随机轨迹：摒弃圆形、八字等固定人工路径，XYZ三轴采用多周期核生成平滑随机轨迹，完整覆盖全速、急加减速、大倾角机动等全部飞行工况；
双控制器采样：仿真内同步运行NMPC、MPPI两类控制器跟踪轨迹，生成多样化电机推力，避免单一控制策略造成数据分布偏置；
全域物理参数随机：每条仿真轨迹独立采样飞行器参数，质量、转动惯量、阻力、电机常数全部在合理区间浮动，累计500套仿真域、2万条10秒轨迹。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| 室外闭环实机测试三类工况示意图©【深蓝 AI】编译

论文提出TDQ轨迹分布质量分数，量化数据集状态覆盖、动力学多样性；数据集规模提升时TDQ同步上涨、预测误差持续下降，百万样本后性能趋于饱和，证明该管线可高效复刻真实飞行器动力学特征。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| 数据集 TDQ 分数与状态预测误差关系图©【深蓝 AI】编译

客观局限：仿真无法完全复刻极端湍流、机身微小形变、传感器杂波，大风环境下零样本精度会明显下滑，极致鲁棒场景仍需少量实机数据补充微调。

2.4 轻量化机载MPPI控制器适配

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| MPPI 控制器超参数配置表©【深蓝 AI】编译

训练完成的SkyJEPA通过TensorRT量化加速，嵌入采样型MPPI控制器，单周期总耗时控制在10ms以内，满足无人机100Hz实时控制硬性要求。

控制器每轮采样512组电机推力候选序列，经潜态模型推演15步轨迹，结合位置、姿态加权代价筛选最优控制量，滚动时域循环更新，全套推理、优化流程全部机载运行，地面站仅负责起降顶层指令下发。

3 —

SkyJEPA差异化优势与短板

当前无人机动力学建模分为三类主流路线，结合JEPA原生技术特点，从长时序稳定性、sim2real零样本泛化、机载实时性、硬件容错四个维度横向对比，客观定位该工作行业位置。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| Orin NX 机载推理耗时曲线©【深蓝 AI】编译

1. 残差自回归神经网络（NeuroBem等）

优势：架构简单、训练代码成熟；短板迭代误差持续放大，更换载荷、桨叶后精度暴跌，必须重新采集实机数据微调，室外八字轨迹位置RMSE可达0.51m，同场景SkyJEPA仅0.35m，误差降低30%以上。

2. 在线自适应动力学模型

优势：飞行中实时更新网络适配环境；短板机载算力开销巨大，小型边缘硬件难以承载，参数更新阶段存在短暂失控风险，且全程依赖实时实机数据采集。

3. 普通重建类潜态模型

优势：潜空间平滑度尚可；短板必须完整重建观测数据，推理开销更高，无物理映射模块，仅能离线预测，无法对接闭环控制器。

SkyJEPA独有的核心竞争力，是首次将杨立昆JEPA理论完整落地高频无人机控制：依靠潜空间预测从底层缓解误差漂移，搭配物理探针打通表征到物理状态的转换链路，结合全域随机仿真实现纯训练数据零实机部署。

同时也要客观认识局限性：当前模型输入仅依赖GPS+IMU状态信息，未融合RGB-D视觉，室内无GPS、障碍物避障场景无法直接使用；架构专为四旋翼设计，固定翼、大型多轴飞行器需要重新调整编码器与积分模块；仅输出状态预测，不支持图像生成，无法用于视觉仿真、图像合成类任务。

4 —

实机闭环实验

实验分为离线开环推演、室外标准轨迹零样本跟踪、硬件改动鲁棒性三大板块，全部数据来自60×70米室外空域真实试飞，区分指标纸面数值与实际落地意义，不单纯堆砌SOTA结果。

4.1 离线开环误差实验

核心指标复合比率CR、误差增长率ER：推演60步后传统基线CR=2.4，SkyJEPA仅1.4；单步新增误差基线0.23、本文0.11。

该指标仅代表无控制器校正的纯推演场景，真实飞行中每一步都会修正偏差，离线巨大误差差距不会完全体现在实机，但能显著降低控制器修正负荷，减少硬件损耗。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| 递归推演误差分析图©【深蓝 AI】编译

补充噪声鲁棒测试：逐步给观测叠加高斯噪声，基线误差涨幅远高于SkyJEPA，适配机载IMU、GPS自带常规噪声，野外飞行稳定性更强。

4.2 室外标准轨迹零样本跟踪

圆形、椭圆、八字、鱼形、李萨茹五种高速机动轨迹，模型全程未经过任何实机微调，直接从仿真迁移至真机。

基线自回归模型位置RMSE区间0.390.61m，姿态误差11.9529.16°；SkyJEPA位置误差0.240.45m，姿态7.8719.43°，平均跟踪误差下降30%~50%，多次试飞轨迹方差更小，重复一致性更强。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| 真实场景零样本轨迹跟踪效果图©【深蓝 AI】编译

飞行速度、机动幅度越高，仿真与现实域间隙越明显，李萨茹高速轨迹下两类方案误差差距小幅收窄，但SkyJEPA依旧保持稳定领先。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图| 真实场景多轨迹闭环跟踪定量结果表©【深蓝 AI】编译

4.3 硬件改动鲁棒实验（核心工程价值）

行业多数动力学模型更换桨、加装载荷后性能断崖下跌，本实验不做任何重训、微调，分别测试换螺旋桨、加装300g载荷两类常见改装工况：

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

更换桨场景：基线位置最高RMSE 0.53m，SkyJEPA仅0.39m；
加装载荷场景：基线最高RMSE 0.72m，SkyJEPA 0.53m；

两类工况姿态误差平均降低35%，证明域随机仿真让模型学到通用飞行器动力学表征，而非绑定单一硬件，对模块化巡检、物流无人机、多机集群场景具备极高落地价值。

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

5 —

落地价值与现存局限

工程落地实际收益

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

大幅缩减试飞成本：整套训练数据集完全由仿真生成，规避高机动试飞炸机、硬件损耗，小型无人机研发周期明显缩短；
适配模块化无人机：更换桨叶、增减载荷无需单独训练动力学网络，一套模型兼容多款硬件配置；
边缘硬件全自主运行：9K轻量网络搭配TensorRT加速，低成本机载计算机即可支撑高频MPPI控制，无需地面高性能工作站；
长时序高机动飞行更安全：连续复杂巡检轨迹下，传统模型推演漂移带来的失控风险被大幅削弱。

当前无法忽视的短板

感知维度单一：仅依靠定位与惯性数据，无视觉预测能力，无GPS室内、障碍物预判场景无法使用；
极端环境适配不足：仿真仅覆盖刚体、电机、阻力参数，无法模拟强湍流、近地复杂气流，大风天气跟踪性能明显衰减；
机型通用性弱：架构针对四旋翼设计，固定翼、大型多轴飞行器需要重新适配网络与积分探针；
功能边界清晰：仅面向状态预测与轨迹控制，不支持视觉图像生成，和自动驾驶生成式世界模型应用场景完全割裂。

6 —

写在最后

SkyJEPA完成杨立昆JEPA世界模型理论从图像、导航向高频飞行器控制的落地闭环，跳出自回归预测与生俱来的误差累积缺陷，通过物理探针补齐潜表征与控制器之间的断层，搭配自动化域随机仿真管线解决实机数据采集痛点，同时兼顾嵌入式硬件实时运行需求。

这套方案证明，依靠多样化仿真数据，JEPA架构可以实现室外无人机零样本敏捷飞行控制，提供一套兼顾精度、泛化性与低成本的动力学建模完整思路。

参考论文：

论文标题：SkyJEPA: Learning Long-Horizon World Models for Zero-Shot Sim-to-Real Control of Quadrotors

论文链接：https://arxiv.org/pdf/2606.23444

文章来自于"深蓝AI"，作者 "深蓝学院"。

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner