多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

AI技术研报 2026-06-03 15:03

+6587 阅读

由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0，是一款面向下一代感知智能的视觉语言大模型。团队充分利用视频 Codec 流和自研 OneVision-Encoder，实现跨帧、跨事件的增量观测和连续证据流建模。本文将详细介绍模型架构、训练方法与能力验证，展示该技术在视频理解、空间推理和目标追踪等任务中的应用潜力。

以「码流（Codec-Stream）」为视觉单元的多模态大模型 —— 让视频不再被切成孤立帧，而成为一条由比特率、运动矢量与残差共同点亮的证据流。

OV2-8B 模型在 18 项视频任务、11 项空间推理任务、4 项跟踪任务中呈现稳定综合优势；自研 JumpScore 则把核心问题推到台前：当动作高度重复、关键瞬间稍纵即逝，模型是否真的记住了 “第几次发生”？模型基于 Qwen3-8B 语言模型与团队自研 OneVision-Encoder，训练流程、数据和权重全部开源。

这不只是一次性能刷新，也是一种问题意识：多模态模型究竟应当平均地观看世界，还是学会为变化付费？

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

技术报告： https://arxiv.org/abs/2605.25979
GitHub：https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-2
模型：https://huggingface.co/lmms-lab-encoder/LLaVA-OneVision-2-8B-Instruct
数据：https://huggingface.co/datasets/mvp-lab/LLaVA-OneVision-2-Data
主页：https://evolvinglmms-lab.github.io/LLaVA-OneVision-2

Part I ｜ Foundation

00 Codec 的前世今生：预测式编码是一种工程先验

Codec 不是因为酷才被发明，而是被通信与存储的硬约束逼出来的：若把每一帧都当作独立图像，码率会随分辨率和帧率一起失控。可扩展的工程路线只有一条 —— 利用时间冗余：把可继承的部分写成状态，把无法忽略的变化写成差分。

这条线从早期预测编码一路走到 H.264/H.265/H.266，技术名词换了一代又一代，核心问题几乎没变：在参考帧上做预测，只为运动向量与残差支付额外比特。

换到建模语言，codec 不只是压缩器，更像一个外置的预测模型：它把视频拆成「上下文 + 增量证据」。几何位移告诉我们物体如何移动，残差告诉我们预测在哪里失败 —— 而失败，往往正是世界真正发生变化的地方。

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

图解｜从预测到重建：视频压缩的闭环，其实也是一套 “先猜测、再修正” 的世界观。

核心信念｜让模型为真实变化付费

Codec 的朴素信仰：能被上下文推出的，不必一遍遍重看；真正值得付费的，是迫使模型修正判断的增量。我们把这套工程语法上升为视觉建模先验 —— 让 ViT 以「状态 + 增量观测」的方式读取世界，也提醒读者：所谓智能，往往不是看得更多，而是知道哪里值得看。

Part II ｜前情提要

LLaVA-OneVision-2.0 站在 OneVision-Encoder（OV-Encoder）的肩膀上

01 为什么是 codec-native：让『增量观测』成为输入侧的基本单位

自然视频并不平均。背景、视角与光照多数时候缓慢漂移，传统 dense patch 或均匀采帧却把同等计算撒向每个位置、每一帧，token 预算最先被可预测的背景吃掉。

Codec 的设计更像一套事件雷达：I-frame 建立上下文，P/B-frame 只记录运动向量与残差。它们不是压缩副产品，而是视频在时间轴上新出现的证据。

OV-Encoder 的取舍很直接：不把 codec 当作省带宽的技巧，而把它当作视频结构的显式标注。当 tokenization 与这套结构对齐，模型学习的目标就从「平均看像素」变成「在状态之上解释变化」。

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

图解 1a ｜视频不是一叠截图，而是一串可继承的状态与新发生的变化。

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

图解 1b ｜从全量采样到运动残差显著性：把算力押在真正变化的地方。

OV-Encoder 一句话总结｜把 Codec 写进 ViT 的视觉底座

OV-Encoder 在同一多模态评测设置下，相较 Qwen3-ViT 与 SigLIP2 呈现稳定收益（16 项图像 / 视频 / 文档基准），视频理解平均提升约 +4.1%；监督预算为 100B caption tokens，而对比基线使用 2.1T+。它的关键不只是分数变化，而是换了一种观看方式：把 Codec 的预测式结构写进 ViT，让 LLaVA-OneVision-2.0 可以直接沿着「状态 — 变化 — 证据」这条链路理解视频。

Part III ｜ LLaVA-OneVision-2.0

核心方法、架构与能力验证

02 跨时序 Codec-Stream

很多视频多模态模型，本质上仍在做一件朴素的事：按时间抽帧、全图编码，再把视觉 token 交给语言模型。

这条路线可靠，但有一个代价：它把注意力交给秒表，而不是交给事件。

问题在于，世界并不按固定间隔发生。

一段视频里，大量画面只是前一刻的延续；真正改变判断的瞬间，可能是突然起跳、一次转身、一个遮挡或场景切换。均匀抽帧会把预算花在 “几乎没变” 的背景上，也可能错过那一帧真正改写语义的证据。

LLaVA-OneVision-2.0 的切入点不是让模型看更多帧，而是让模型先问：哪里真的发生了变化？

视频编解码（H.264/H.265）早就把这个问题写进了码流：I 帧给出上下文，P/B 帧用运动向量和残差记录变化；当某段 P/B 帧的 bit 代价突然抬升，通常意味着运动、遮挡或场景结构正在变得重要。

于是，LLaVA-OneVision-2.0 直接把码流信号纳入视觉入口：让整段视频成为一条连续的比特率证据流，而不是被秒表切碎的一组截图。

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

范式速览｜从手工稀疏采样、启发式压缩到可学习选择，再到 Codec 对齐：视觉 Token 的竞争，正在从 “多看几帧” 转向 “看懂变化”。

03 架构：一种视觉接口，兼容均匀采样和 codec 输入

采样视频、码流视频、原生分辨率图像 —— 三种证据形态被同一个 OneVision-Encoder 接住，编码为带 3D RoPE 的视觉 Token，再经轻量 MLP 投射到 Qwen3-8B 自回归解码器。接口统一，证据多源；这让模型既能读静态图，也能沿着视频的变化线索推理。

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

系统路线图｜三种输入接入同一个视觉接口：原生图像、均匀采样视频与 Codec 流视频，最终汇入同一套视觉 token。

04 Codec 流 Tokenization：最核心的部分

与传统「固定 GOP / 等距采帧」不同，LLaVA-OneVision-2.0 把 P/B 帧字节数视为「语义增量」代理：比特率峰值自适应切分时序组，组内再用运动残差挑出真正变化的 2×2 Patch 区块，打包进紧凑 I/P 画布。事件密集处密 Token，平稳处稀 Token—— 把算力从背景转向事件。

Codec-stream Tokenization：四步把视频变成证据流

相较于只在单帧内挑高信息 Patch，LLaVA-OneVision-2.0 把整段压缩流组织为 stream-level、bit-cost-aware 的证据序列，并通过四个步骤转成语言模型可消费的视觉 Token：

① GOP Partition：用 P/B 帧 Packet Energy（字节数）定位事件峰值，事件密集区短组、平稳区长组；② Scoring：融合 Motion Energy、Residual Energy 与 Patch 级比特率先验，得到逐 Patch 的 Fused Score；③ Block Selection：以 2×2 Patch 区块为最小单元，避免合并不相干区域；④ Canvas Packing：每个 GOP 输出一张 I-canvas 与若干 P-canvas，形成紧凑画布序列。

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

方法速览｜ GOP 切分、能量打分、块选择、画布打包：让 Token 跟随事件强度流动。

这条流水线把 OV-Encoder 的 single-frame Codec Patchification 升级为流级 Token 分配机制。Token 密度不再由帧号或秒表决定，而是跟着码流暴露的事件强度走。

05 结果观察：让模型在变化发生处保持清醒

这组结果真正想回答的，不是名次，而是一个更底层的问题：当视频变长、动作变密、空间关系变复杂时，模型还能不能把关键瞬间保存下来，并在回答时重新调用出来？

在评测中，OV-2-8B 的几个坐标分别是：18 项视频理解平均 62.5，11 项空间推理平均 63.5，4 项目标追踪 J&F 平均 48.0。数字在这里的价值不在名次，而是为了说明 Codec-Stream 的取向：把 token 预算自然推向运动、遮挡、视角变化和事件转折，而不是平均消耗在重复背景上。

更值得看的，是那些对时间和几何特别敏感的压力场景。CrossPoint、TraceSpatial-3D 与追踪类任务并不只考 “认出画面里有什么”，而是在考模型能否稳定理解位置、顺序、方向与连续运动。它们提醒我们：下一代视觉语言模型的竞争点，可能不再是单帧里看到了多少细节，而是能否把时间中的证据组织成可验证的推理链。

追踪结果也需要谨慎解读：LLaVA-OneVision-2.0 输出的是每帧 (x, y) 追踪点，再交给 SAM2 生成 mask。因此，这组表现反映的是 “时序点定位能力 × 分割器响应质量” 的联动效果，而不是模型独立完成所有分割步骤。

图像与文档理解则保持在同级 8B 模型的相近水平；在 OCRBench、InfoVQA 这类文字密集任务上仍有提升空间。这条边界很重要：Codec-Stream 强化的是连续世界中的事件感知，而不是把所有视觉能力都一次性装进同一个答案里。

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

能力切面｜这不是终点线，而是一组压力测试：模型是否能在视频、空间与追踪中保留关键证据。

06 开放数据栈：从 8M 视频到 JumpScore 的时间考场

训练数据主要来自四块，重点不是简单堆量，而是把模型一步步推向更长时间、更强空间关系和更精细运动的场景。

一、继承自 LLaVA-OneVision-1.5 的图文基础

约 85M 图文对（中英混合）用于预训练，再加上约 22M 指令数据和 24M FineVision 数据做指令微调。这部分直接复用，没有重新处理。

二、按时长分层的视频字幕语料（本次新增重点）

本版最重要的数据贡献之一，是约 800 万条按时长分层的视频字幕：30 秒、30–60 秒、60–180 秒、10–15 分钟四档，共 104.1B tokens，覆盖 796 万条视频片段。

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

数据地图｜从短视频到十分钟级长视频，从真实场景到空间推理：模型学到的不是更多样本，而是更长的时间。

三、4M 规模空间推理语料

这部分数据覆盖 2D/3D 空间关系问答，来源包括室内场景注释、模拟器轨迹和网络视频帧；同时结合点式追踪与时空指向数据，专门把模型推向 “看懂位置、方向与连续动作” 的能力。

四、阶段渐进式训练

训练采用四阶段渐进式路线，frame budget 逐阶段抬高：

Stage 1：混合来自 LLaVA-OV-1.5 的 85m 图文对数据 + 4.2M 30s 视频字幕，最大 30 帧，标准均匀采样
Stage 2：加入 22M 指令数据 + 24M FineVision + 2.7M 30–60s + 70 万 60–180s 视频字幕，最大 90 帧，仍是均匀采样
Stage 3：加入 350K 10–15 分钟长视频字幕，最大 384 帧，仍是均匀采样
Stage 4：对 10–15 分钟语料启用 Codec 流 tokenization（384 帧 + 768 帧两个密度），同时加入空间推理语料和追踪数据

值得注意的是：Codec 流并非从一开始就加入，而是在 Stage 4 才用于 10–15 分钟长视频语料；其余数据仍保留标准格式。这让模型在统一接口下同时学习均匀采样与码流输入。

最终每个训练 step 的 batch 约为 50% codec 视频、37.5% 均匀采样视频、12.5% 图像。换句话说，LLaVA-OneVision-2.0 不是只会读一种格式，而是在多种视觉证据之间学会切换。在训练过程中，团队也借助了全模态训练框架 LoongForge，为相关训练与迭代提供支撑。

JumpScore：用重复动作拷问时间记忆

现有时序定位基准常问的是「某个事件发生在哪里」；相邻片段通常视觉差异明显，模型只要找到一次事件就可能过关。

JumpScore 换了一个更刁钻的问题：在一串高度相似、循环往复的动作里，模型能否知道「第几次」发生在什么时刻？

任务场景是跳绳视频。每一次绳子从腿后经过，算作一个 cycle start，模型需要预测所有 cycle 的开始时间戳，精度到 0.1 秒。

难点在于，每次跳绳看上去几乎一样。模型不能只认出「有人在跳绳」，还必须在重复动作中保持计数、定位和节奏记忆。均匀采样的帧常常相似到难以区分，这正是码流证据可能发挥作用的地方。

数据集包含 189 段真实录制的跳绳视频，84% 以上分辨率达到 1920×1080；时间标注精确到小数点后一位，基准点是绳子经过腿部后侧的那一帧。

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

JumpScore 现场｜几乎重复的跳绳周期，逼问模型是否真的记住了 “第几次发生”。

JumpScore 上，LLaVA-OneVision-2.0 的 mAP 为 74.9。这个数字之所以值得被放大，不是因为它刷新了某个刻度，而是因为它把一个更难的问题摆到台前：当每一次跳绳在画面上几乎相同，模型是否真的记住了第几次、何时发生、节奏如何变化？也需要冷静理解：JumpScore 与 codec 流擅长的高频重复运动天然贴近，存在一定 “主场优势”。它的价值，是把时序理解从 “找到动作片段” 推进到 “追踪重复事件中的顺序、节奏与因果线索”。

Codec 与均匀采样？

固定 Token 预算下，码流流式输入相对均匀采帧在时间定位上获得 +9.7 分增益；在长视频设置中，可将 Patch 从 128k 压到 16k（87.5% 压缩）而尽量保留关键瞬间。时序定位（Charades-STA、ActivityNet、QVHighlights）：在低帧数预算下尤其明显，4 帧预算时 QVHighlights 上 codec 超出均匀采样 15.4 分，跳绳等高频重复运动的细粒度定位（JumpScore）。

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

Token 预算实验｜当帧预算收紧，Codec 流把注意力留给关键瞬间；绿色区间显示其相对均匀采样的收益。

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

JumpScore 实验：左边是均匀帧采样（Uniform 128 Frames），右边是 LLaVA-OV2 基于编解码器选择的图块采样（Codec-Selected Patches）

07 把视觉变成世界模型的「证据流」

Codec 的信念看似朴素，却是下一代感知智能：能被上下文推出的，不必反复重看；真正值得付费的，是迫使模型修正判断的真实增量。

这背后有一个更大的问题：智能是否一定来自看得更多？LLaVA-OneVision-2.0 给出的回答是 —— 未必。智能也可能来自更好的选择性注意：少复述背景，多追踪变化；少平均分配算力，多围绕证据组织推理。

OneVision-Encoder 把 Codec 的预测式结构写进 ViT，LLaVA-OneVision-2.0 则把整段压缩流变成连续证据流。下一步，这一路线将继续走向流式感知与小时级超长视频建模。真正值得期待的，不只是更长上下文，而是模型能否在漫长视频中保持一种清醒：知道什么已经被继承，什么正在改变，什么需要被重新解释。

结语

LLaVA-OneVision-2.0 展示了格灵深瞳灵感实验室在视觉语言模型与多模态视频理解领域的最新技术积累。通过 Codec 流与 OneVision-Encoder 的结合，模型能够在高密度重复动作与长时序视频中捕捉关键证据，实现精确理解与推理。

未来，团队将继续优化全帧率视频理解能力，并探索更多跨场景应用，为视觉 AI 技术的可扩展落地提供支持。相关代码、模型与数据已开放，期待与技术社区共同探索下一代多模态感知智能的更多可能。

文章来自于"机器之心"，作者 "机器之心"。

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

Part I ｜ Foundation

00 Codec 的前世今生：预测式编码是一种工程先验

Part II ｜ 前情提要

LLaVA-OneVision-2.0 站在 OneVision-Encoder（OV-Encoder） 的肩膀上

Part III ｜ LLaVA-OneVision-2.0

核心方法、架构与能力验证

结语

Part II ｜前情提要

LLaVA-OneVision-2.0 站在 OneVision-Encoder（OV-Encoder）的肩膀上