达摩院发布世界模型评测基准，自家模型一个都没上榜......

AI技术研报 2026-06-17 14:28

+9613 阅读

「直击行业核心短板」

达摩院联合高校推出WorldOlympiad评测基准，跳出传统视频“唯画质”的评价逻辑，以物理真实性、三维几何一致性、长时序交互保真度三大维度，搭配游戏、机器人、通用实景三大场景，打造一套全方位的视频世界模型评测体系。

该基准配套千级标准数据集与自动化评测链路，完成8款主流长视频模型横评，精准暴露当前技术普遍存在的缺陷，为行业树立全新评测标准，也为技术迭代指明方向。

随着视频世界模型成为机器人仿真、互动游戏、实景模拟的核心底座，模型能力早已不止于画面美观，能否遵循物理规则、维持空间结构、实现连贯交互，才是落地关键。

但传统评测工具存在明显短板：

VBench等主流基准只侧重视觉观感，忽略物理与空间逻辑；MIND、WorldArena等专用基准仅适配单一场景，无法跨模型横向对比；各类早期评测维度残缺，且多依赖人工打分，效率与标准化程度不足。WorldOlympiad的问世，正是为了解决行业评测标准混乱、评价片面的痛点。

达摩院发布世界模型评测基准，自家模型一个都没上榜......

图 | WorldOlympiad 整体评测总流程图©【深蓝 AI】编译

传统评测体系各有局限，而WorldOlympiad构建起“三大能力+三大场景”的立体评测模式，兼顾排名与故障诊断，从单纯的“颜值打分”升级为模型综合能力体检。

达摩院发布世界模型评测基准，自家模型一个都没上榜......

图 | 主流评测基准能力对比©【深蓝 AI】编译

该基准不再局限单一维度，可精准定位模型问题出在物理规则、三维结构还是交互衔接，同时统一全场景评测标准，让不同路线的模型具备横向对比的条件，适配学术研究与工业测试双重需求。

整套基准由标准化数据集、标注管线、三大评测模块组成，自动化评测结果与人工主观判断高度契合，斯皮尔曼相关系数达0.95，保证了结果真实可信。

数据集总计1000条长视频，划分明确且经过精细化处理，贴合不同场景的应用特性。

达摩院发布世界模型评测基准，自家模型一个都没上榜......

图 | WorldOlympiad数据集构成©【深蓝 AI】编译

所有视频均采用三段式标注：先切分为无重叠时序片段，再生成动作与场景描述，最后结合全文本优化标注，匹配当下主流分块式长视频生成逻辑。

达摩院发布世界模型评测基准，自家模型一个都没上榜......

图 | 视频分块、标注与优化标准化流程图©【深蓝 AI】编译

达摩院发布世界模型评测基准，自家模型一个都没上榜......

图 | 视频世界模型典型错误案例示意图©【深蓝 AI】编译

1. 物理真实性

结合SAM分割与大模型裁判，从力学、热学、材料特性三个方向设置14项规则，检测物体重力、碰撞、物态变化、材质表现是否符合现实。实测发现，主流模型基础力学表现尚可，但热学、相关材料特性极易出错，是普遍弱项。

2. 三维几何一致性

引入高斯泼溅三维重建技术，从重建效果、元视角渲染、相机轨迹三个维度打分。当下几乎所有模型都存在三维短板，二维画面正常，但换视角后易出现物体扭曲、场景丢失，这也是全行业共有的技术瓶颈。

3. 交互保真度

结合CLIP语义匹配与大模型，分单片段、片段过渡、全局三层评测，检验模型是否遵循交互指令、画面衔接是否流畅、长时序状态是否稳定。重点针对分块生成模式，还原真实交互场景下的模型表现。

团队选取8款主流模型开展测试，分为游戏、机器人、通用三大类别，得分直观反映当前行业整体水平。

达摩院发布世界模型评测基准，自家模型一个都没上榜......

图 | 八大模型综合得分与排名表©【深蓝 AI】编译

结合数据可总结四大行业特征：

第一，大参数模型与垂直领域专项训练均能提升能力。140亿参数的LingBot-World综合第一，20亿参数的Cosmos-Predict-2.5依托机器人专项训练紧随其后，中小模型可依靠场景优化弥补参数差距。但高分仅代表基础物理规则达标，复杂物理场景依旧存在漏洞。
第二，三维几何是全行业最大短板。所有模型该项得分普遍偏低，仅侧重视角控制的Hunyuan-WorldPlay相对突出，也侧面证明当前生成架构对三维空间的建模能力不足。
第三，模型存在专精与泛化的博弈。头部领域模型可实现跨场景适配，而部分专用模型脱离原有场景后性能大幅下滑，说明兼顾专项能力与通用能力是研发关键。
第四，模型梯队差距明显。尾部模型生成内容严重违背世界规则，也体现出该基准可有效区分不同层级的模型。

达摩院发布世界模型评测基准，自家模型一个都没上榜......