一种零样本文本驱动视频编辑的全局局部帧联合建模方法

正文

推荐专利

申请号：CN202510339145

申请日期：2025-03-21

公开号：CN120186412A

公开日期：2025-06-20

类型：发明专利

摘要

本发明公开了一种零样本文本驱动视频编辑的全局局部帧联合建模方法，属于计算机视觉、视频编辑领域。应用于视频编辑的潜在扩散模型的逆过程，所述的逆过程是将加噪后的视频帧在潜在空间中采用U‑Net结构的扩散模型进行去躁，并在去躁过程中将文本编码后的特征作为条件信息引入，逐步生成符合文本描述的编辑后视频帧；所述的U‑Net结构包含Transformer块，且其中的自注意力块联合全局帧特征和局部帧特征进行计算，自注意力块计算时，分别生成基于全局帧建模后的键和值、以及基于局部帧建模后的键和值，在时空域特征维度上合并全局帧建模和局部帧建模结果，更新原始键和原始值，利用更新后的键、值与原始查询计算自注意力值。

技术关键词

联合建模方法视频帧特征注意力视频编辑方法文本编码器图像编码器聚类算法空域特征样本噪声图像图像解码器 EM算法计算机视觉线性

系统为您推荐了相关专利信息

一种工业场景下的多模态语义分割方法、系统、装置及存储介质

语义分割方法语义分割模型图像文本语义特征

基于静力-动力-环境量融合的危岩风险预警方法及系统

环境监测数据风险预警方法指标深度学习算法计算机可读指令

一种针对FreeRTOS缓冲区溢出漏洞的图神经网络检测方法

缓冲区溢出漏洞矩阵检测缓冲区溢出神经网络模型 Word2Vec模型

一种基于智能识别的曲面局部喷涂方法

喷涂方法曲面节点特征漆膜喷枪

车辆的位置定位方法、装置、车辆及介质

场景特征位置定位方法地理位置信息大语言模型采样点

一种零样本文本驱动视频编辑的全局局部帧联合建模方法

站点导航

APP 下载