SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

AI技术研报 2025-06-10 15:23

+8082 阅读

传统的视频编辑工作流，正在被AI彻底重塑。

AI的视频编辑方法总是存在一些问题：例如视频运动不连贯、编辑后的视频产生意外变化等……经过分析，这些问题的产生最终大都指向同一原因——反演-编辑范式。

因此，西湖大学AGILab提出了一种全新的无需反演和训练的视频编辑新方法：FlowDirector。

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

相较于其他视频编辑方法，FlowDirector有以下方面值得关注：

开销低：FlowDirector无反演过程，不需要存储任何额外的控制信息(如Attention Map)，单卡4090就可实现高质量视频编辑。
支持广泛：除可进行传统的对象替换外，FlowDirector可以任意的添加、删除视频中的内容，以及进行一系列的纹理替换。
背景100%保持：通过对非编辑区域的“动力”进行冻结，使得编辑后的视频在无关区域与原视频完全保持一致。

编辑结果展示：

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

方法：针对视频编辑中的「反演痛点」

现在的通用视频编辑方法大多基于反演-去噪（inversion-denosiong）范式:

反演：把原视频使用特定的方法(例如DDIM Inversion)拉回对应噪声空间得到潜在特征；
去噪：对噪声空间中的潜在特征重新进行采样，并在采样中注入一些特定的控制条件来达到编辑效果。

这种范式带来了许多问题：反演过程中的错误会不断的累计，使得得到的潜在特征并非是完美的，因此给去噪过程提供错误的起点，导致出现例如编辑视频动作不连贯等结构性损失，编辑结果受到严重干扰。

并且在去噪过程中的条件注入带来了额外的存储开销，限制了编辑产生的结果。

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

FlowDirector则摒弃了传统的反演-去噪范式，通过构造从源视频到编辑结果的直接编辑路径，实现高质量、准确和高可控的视频编辑效果。具体实现如下：

直接流演化与空间矫正：精准、高质

FlowDirector直接特征空间构建“源视频→目标视频”的演化路径，但这种直接演化范式并非完美无瑕，直接编辑路径产生的编辑流作用于全视频特征，会导致无关区域发生意外变化，严重影响编辑视频的保真度。

如图所示，在对目标编辑对象进行编辑时，编辑影响在了无关区域(道路)。

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

为此，研究团队提出了空间感知流矫正(Spatially Attentive Flow Correction，SAFC)：SAFC通过定位并限制编辑视频中关键对象所在的空间区域，来防止编辑流干扰无关区域。

如图所示，编辑左右被精确的限制在了车的周围，干扰泄漏现象消失。

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

具体措施为基于注意力热图生成二值掩码，仅在语义相关的区域（如要替换或修改的物体、人物）施加流演化，背景与非目标部分完全“冻结”，保证编辑后视频的结构与纹理不受影响。

差分平均引导：一种编辑流的自动引导优化方式

这种直接演化范式带来的第二个问题是，由于跳过了反演过程，原始视频的控制信号会在编辑的整个流程均显著存在，往往会对最终效果施加过强的“控制效果”，导致修改后的视频中依然残留明显的原始物体轮廓或细节伪影。

为此，作者团队提出了差分平均引导(Differential Averaging Guidance，DAG)，同时进行“高质量采样”和“快速基线采样”，通过比对两者之间的差异来提炼出真正需要的编辑优化方向。具体来说：

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

这样一来，系统不仅能保留足够的语义细节、确保目标区域与文本提示高度匹配，还能有效抑制原始视频多余信息的干扰。

最终，DAG让FlowDirector在保证高保真度的同时，不至于陷入冗长采样带来的算力瓶颈，实现了“画质优先、效率优先”的双重升级。

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

实验结果：多指标SOTA，支持添加、删除和修改多任务

FlowDirector团队首先进行了全面的定性实验，包含一系列定性任务，例如添加物体，删除物体，形态差异剧烈的对象替换，对象属性更改(如人的衣着)，纹理替换以及这些任务的组合。

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

结果得到，在广泛的任务上，FlowDirector均能够精准捕捉并反映提示中指定的关键风格属性（例如颜色、材质等），优先确保文本语义与视觉效果的高度对齐。

同时，在保证目标区域发生预期变化的前提下，FlowDirector也能确保输出视频的整体布局稳定、无关区域一直与结构完整。

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

在定量结果中，FlowDirector在各种指标上均取得SOTA（在WarpSSIM上并非最高，因为FlowDirector能够实现更大程度的语义变换，导致像素级的光流扭曲数值略低），显著超过了已有的视频编辑方法。

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

对比多种SOTA的视频编辑方法（如FateZero、TokenFlow、VideoDirector等），FlowDirector在对象形变幅度、文本一致性、视觉细节与运动流畅度方面均表现突出，综合主观与客观评测指标均居领先水平。

总体而言，FlowDirector展示了视频编辑的新思路：无需反演的直接流编辑，并引入了空间矫正和自动引导，显著提升了编辑视频的质量，实现了快、准、省的三重跃升。

论文链接：https://arxiv.org/abs/2506.05046

项目地址：https://flowdirector-edit.github.io

Github：https://github.com/Westlake-AGI-Lab/FlowDirector

Huggingface：https://huggingface.co/spaces/Westlake-AGI-Lab/FlowDirector

文章来自于“量子位”，作者“FlowDirector团队”。

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）