摘要
本发明公开了一种零样本文本驱动视频编辑的全局局部帧联合建模方法,属于计算机视觉、视频编辑领域。应用于视频编辑的潜在扩散模型的逆过程,所述的逆过程是将加噪后的视频帧在潜在空间中采用U‑Net结构的扩散模型进行去躁,并在去躁过程中将文本编码后的特征作为条件信息引入,逐步生成符合文本描述的编辑后视频帧;所述的U‑Net结构包含Transformer块,且其中的自注意力块联合全局帧特征和局部帧特征进行计算,自注意力块计算时,分别生成基于全局帧建模后的键和值、以及基于局部帧建模后的键和值,在时空域特征维度上合并全局帧建模和局部帧建模结果,更新原始键和原始值,利用更新后的键、值与原始查询计算自注意力值。
技术关键词
联合建模方法
视频帧特征
注意力
视频编辑方法
文本编码器
图像编码器
聚类算法
空域特征
样本
噪声图像
图像解码器
EM算法
计算机视觉
线性
系统为您推荐了相关专利信息
环境监测数据
风险预警方法
指标
深度学习算法
计算机可读指令
缓冲区溢出漏洞
矩阵
检测缓冲区溢出
神经网络模型
Word2Vec模型
场景特征
位置定位方法
地理位置信息
大语言模型
采样点