SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%

搜索
AI-TNT
正文
资源拓展
SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%
2025-06-10 15:23

传统的视频编辑工作流,正在被AI彻底重塑。


AI的视频编辑方法总是存在一些问题:例如视频运动不连贯、编辑后的视频产生意外变化等……经过分析,这些问题的产生最终大都指向同一原因——反演-编辑范式


因此,西湖大学AGILab提出了一种全新的无需反演和训练的视频编辑新方法:FlowDirector


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


相较于其他视频编辑方法,FlowDirector有以下方面值得关注:


  • 开销低:FlowDirector无反演过程,不需要存储任何额外的控制信息(如Attention Map),单卡4090就可实现高质量视频编辑。
  • 支持广泛:除可进行传统的对象替换外,FlowDirector可以任意的添加、删除视频中的内容,以及进行一系列的纹理替换。
  • 背景100%保持:通过对非编辑区域的“动力”进行冻结,使得编辑后的视频在无关区域与原视频完全保持一致。


编辑结果展示:


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


方法:针对视频编辑中的「反演痛点」


现在的通用视频编辑方法大多基于反演-去噪(inversion-denosiong)范式:


  • 反演:把原视频使用特定的方法(例如DDIM Inversion)拉回对应噪声空间得到潜在特征;
  • 去噪:对噪声空间中的潜在特征重新进行采样,并在采样中注入一些特定的控制条件来达到编辑效果。


这种范式带来了许多问题:反演过程中的错误会不断的累计,使得得到的潜在特征并非是完美的,因此给去噪过程提供错误的起点,导致出现例如编辑视频动作不连贯等结构性损失,编辑结果受到严重干扰。


并且在去噪过程中的条件注入带来了额外的存储开销,限制了编辑产生的结果。


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


FlowDirector则摒弃了传统的反演-去噪范式,通过构造从源视频到编辑结果的直接编辑路径,实现高质量、准确和高可控的视频编辑效果。具体实现如下:


直接流演化与空间矫正:精准、高质


FlowDirector直接特征空间构建“源视频→目标视频”的演化路径,但这种直接演化范式并非完美无瑕,直接编辑路径产生的编辑流作用于全视频特征,会导致无关区域发生意外变化,严重影响编辑视频的保真度。


如图所示,在对目标编辑对象进行编辑时,编辑影响在了无关区域(道路)。


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


为此,研究团队提出了空间感知流矫正(Spatially Attentive Flow Correction,SAFC):SAFC通过定位并限制编辑视频中关键对象所在的空间区域,来防止编辑流干扰无关区域。


如图所示,编辑左右被精确的限制在了车的周围,干扰泄漏现象消失。


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


具体措施为基于注意力热图生成二值掩码,仅在语义相关的区域(如要替换或修改的物体、人物)施加流演化,背景与非目标部分完全“冻结”,保证编辑后视频的结构与纹理不受影响。


差分平均引导:一种编辑流的自动引导优化方式


这种直接演化范式带来的第二个问题是,由于跳过了反演过程,原始视频的控制信号会在编辑的整个流程均显著存在,往往会对最终效果施加过强的“控制效果”,导致修改后的视频中依然残留明显的原始物体轮廓或细节伪影。


为此,作者团队提出了差分平均引导(Differential Averaging Guidance,DAG),同时进行“高质量采样”和“快速基线采样”,通过比对两者之间的差异来提炼出真正需要的编辑优化方向。具体来说:


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


这样一来,系统不仅能保留足够的语义细节、确保目标区域与文本提示高度匹配,还能有效抑制原始视频多余信息的干扰。


最终,DAG让FlowDirector在保证高保真度的同时,不至于陷入冗长采样带来的算力瓶颈,实现了“画质优先、效率优先”的双重升级。


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


实验结果:多指标SOTA,支持添加、删除和修改多任务


FlowDirector团队首先进行了全面的定性实验,包含一系列定性任务,例如添加物体,删除物体,形态差异剧烈的对象替换,对象属性更改(如人的衣着),纹理替换以及这些任务的组合。


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


结果得到,在广泛的任务上,FlowDirector均能够精准捕捉并反映提示中指定的关键风格属性(例如颜色、材质等),优先确保文本语义与视觉效果的高度对齐。


同时,在保证目标区域发生预期变化的前提下,FlowDirector也能确保输出视频的整体布局稳定、无关区域一直与结构完整。


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


在定量结果中,FlowDirector在各种指标上均取得SOTA(在WarpSSIM上并非最高,因为FlowDirector能够实现更大程度的语义变换,导致像素级的光流扭曲数值略低),显著超过了已有的视频编辑方法。


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%


对比多种SOTA的视频编辑方法(如FateZero、TokenFlow、VideoDirector等),FlowDirector在对象形变幅度、文本一致性、视觉细节与运动流畅度方面均表现突出,综合主观与客观评测指标均居领先水平。


总体而言,FlowDirector展示了视频编辑的新思路:无需反演的直接流编辑,并引入了空间矫正和自动引导,显著提升了编辑视频的质量,实现了快、准、省的三重跃升。


论文链接:https://arxiv.org/abs/2506.05046

项目地址:https://flowdirector-edit.github.io

Github:https://github.com/Westlake-AGI-Lab/FlowDirector

Huggingface:https://huggingface.co/spaces/Westlake-AGI-Lab/FlowDirector


文章来自于“量子位”,作者“FlowDirector团队”。


SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%

1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

添加客服微信openai178,进AITNT官方交流群
IOS下载
安卓下载
微信群
沪ICP备2023015588号