达摩院发布世界模型评测基准,自家模型一个都没上榜......

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
达摩院发布世界模型评测基准,自家模型一个都没上榜......
AI技术研报 2026-06-17 14:28
+8583 阅读

达摩院发布世界模型评测基准,自家模型一个都没上榜......

直击行业核心短板


达摩院联合高校推出WorldOlympiad评测基准,跳出传统视频“唯画质”的评价逻辑,以物理真实性、三维几何一致性、长时序交互保真度三大维度,搭配游戏、机器人、通用实景三大场景,打造一套全方位的视频世界模型评测体系。


该基准配套千级标准数据集与自动化评测链路,完成8款主流长视频模型横评,精准暴露当前技术普遍存在的缺陷,为行业树立全新评测标准,也为技术迭代指明方向。


随着视频世界模型成为机器人仿真、互动游戏、实景模拟的核心底座,模型能力早已不止于画面美观,能否遵循物理规则、维持空间结构、实现连贯交互,才是落地关键。


但传统评测工具存在明显短板:


VBench等主流基准只侧重视觉观感,忽略物理与空间逻辑;MIND、WorldArena等专用基准仅适配单一场景,无法跨模型横向对比;各类早期评测维度残缺,且多依赖人工打分,效率与标准化程度不足。WorldOlympiad的问世,正是为了解决行业评测标准混乱、评价片面的痛点。


达摩院发布世界模型评测基准,自家模型一个都没上榜......

图 | WorldOlympiad 整体评测总流程图©【深蓝 AI】编译


1

立体框架实现全面升级


传统评测体系各有局限,而WorldOlympiad构建起“三大能力+三大场景”的立体评测模式,兼顾排名与故障诊断,从单纯的“颜值打分”升级为模型综合能力体检。


达摩院发布世界模型评测基准,自家模型一个都没上榜......

图 | 主流评测基准能力对比©【深蓝 AI】编译


该基准不再局限单一维度,可精准定位模型问题出在物理规则、三维结构还是交互衔接,同时统一全场景评测标准,让不同路线的模型具备横向对比的条件,适配学术研究与工业测试双重需求。


2

数据集与三大评测赛道


整套基准由标准化数据集、标注管线、三大评测模块组成,自动化评测结果与人工主观判断高度契合,斯皮尔曼相关系数达0.95,保证了结果真实可信。


(一)标准化数据集


数据集总计1000条长视频,划分明确且经过精细化处理,贴合不同场景的应用特性。


达摩院发布世界模型评测基准,自家模型一个都没上榜......

图 | WorldOlympiad数据集构成©【深蓝 AI】编译


所有视频均采用段式标注:先切分为无重叠时序片段,再生成动作与场景描述,最后结合全文本优化标注,匹配当下主流分块式长视频生成逻辑。


达摩院发布世界模型评测基准,自家模型一个都没上榜......

图 | 视频分块、标注与优化标准化流程图©【深蓝 AI】编译


(二)三大核心评测赛道


达摩院发布世界模型评测基准,自家模型一个都没上榜......

图 | 视频世界模型典型错误案例示意图©【深蓝 AI】编译


1. 物理真实性


结合SAM分割与大模型裁判,从力学、热学、材料特性三个方向设置14项规则,检测物体重力、碰撞、物态变化、材质表现是否符合现实。实测发现,主流模型基础力学表现尚可,但热学、相关材料特性极易出错,是普遍弱项。


2. 三维几何一致性


引入高斯泼溅三维重建技术,从重建效果、元视角渲染、相机轨迹三个维度打分。当下几乎所有模型都存在三维短板,二维画面正常,但换视角后易出现物体扭曲、场景丢失,这也是全行业共有的技术瓶颈。


3. 交互保真度


结合CLIP语义匹配与大模型,分单片段、片段过渡、全局三层评测,检验模型是否遵循交互指令、画面衔接是否流畅、长时序状态是否稳定。重点针对分块生成模式,还原真实交互场景下的模型表现。


3

主流模型横评


团队选取8款主流模型开展测试,分为游戏、机器人、通用三大类别,得分直观反映当前行业整体水平。


达摩院发布世界模型评测基准,自家模型一个都没上榜......

图 | 八大模型综合得分与排名表©【深蓝 AI】编译


结合数据可总结四大行业特征:


  • 第一,大参数模型与垂直领域专项训练均能提升能力。140亿参数的LingBot-World综合第一,20亿参数的Cosmos-Predict-2.5依托机器人专项训练紧随其后,中小模型可依靠场景优化弥补参数差距。但高分仅代表基础物理规则达标,复杂物理场景依旧存在漏洞。
  • 第二,三维几何是全行业最大短板。所有模型该项得分普遍偏低,仅侧重视角控制的Hunyuan-WorldPlay相对突出,也侧面证明当前生成架构对三维空间的建模能力不足。
  • 第三,模型存在专精与泛化的博弈。头部领域模型可实现跨场景适配,而部分专用模型脱离原有场景后性能大幅下滑,说明兼顾专项能力与通用能力是研发关键。
  • 第四,模型梯队差距明显。尾部模型生成内容严重违背世界规则,也体现出该基准可有效区分不同层级的模型。


达摩院发布世界模型评测基准,自家模型一个都没上榜......

图 | 各模型多维度得分分布图©【深蓝 AI】编译


实测中还总结出高频错误:物体浮空、结构突变、交互时场景重置等问题频发,这类缺陷在观感中不易察觉,却会直接导致仿真、机器人等落地功能失效。


4

基准定位、局限与行业展望


在行业评测体系中,WorldOlympiad属于能力导向型基准,区别于传统画质评测工具,主打物理、几何、交互三大核心能力,同时实现多场景兼容、问题精准定位,有效改善了行业自定标准、榜单公信力不足的乱象。


达摩院发布世界模型评测基准,自家模型一个都没上榜......

图 | 人工偏好与自动评测排名对齐表©【深蓝 AI】编译


客观来看,该基准也存在一定局限:


评测结果依赖第三方模型精度,会产生微小误差;测试数据为公开数据集,和工业界极端场景存在差距;暂未针对自动驾驶等细分领域深度优化。


从行业价值而言,WorldOlympiad重新定义了视频世界模型的评价方向,引导研发从“追求画质”转向“模拟真实世界”。结合实测结果,未来技术突破的核心方向集中在三维空间建模、复杂物理推理、超长时序状态维持。


团队后续还将依托该基准,深入研究各类记忆机制对长视频生成的影响,持续迭代评测能力。


达摩院发布世界模型评测基准,自家模型一个都没上榜......


如今视频世界模型已是具身智能、交互式仿真的核心技术,而专业评测基准就是技术发展的“风向标”。WorldOlympiad的出现,为整个赛道建立了统一、可信的评价标尺,将持续推动视频世界模型向更真实、更稳定、更具实用性的方向演进。


Ref

论文标题:WorldOlympiad: Can Your World Model Survive a Triathlon?

论文链接:https://arxiv.org/pdf/2606.11129v1

项目链接:https://alibaba-damo-academy.github.io/WorldOlympiad


文章来自于"深蓝AI",作者 "深蓝学院"。

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案