一种零样本文本驱动视频编辑的全局局部帧联合建模方法

AITNT
正文
推荐专利
一种零样本文本驱动视频编辑的全局局部帧联合建模方法
申请号:CN202510339145
申请日期:2025-03-21
公开号:CN120186412A
公开日期:2025-06-20
类型:发明专利
摘要
本发明公开了一种零样本文本驱动视频编辑的全局局部帧联合建模方法,属于计算机视觉、视频编辑领域。应用于视频编辑的潜在扩散模型的逆过程,所述的逆过程是将加噪后的视频帧在潜在空间中采用U‑Net结构的扩散模型进行去躁,并在去躁过程中将文本编码后的特征作为条件信息引入,逐步生成符合文本描述的编辑后视频帧;所述的U‑Net结构包含Transformer块,且其中的自注意力块联合全局帧特征和局部帧特征进行计算,自注意力块计算时,分别生成基于全局帧建模后的键和值、以及基于局部帧建模后的键和值,在时空域特征维度上合并全局帧建模和局部帧建模结果,更新原始键和原始值,利用更新后的键、值与原始查询计算自注意力值。
技术关键词
联合建模方法 视频帧特征 注意力 视频编辑方法 文本编码器 图像编码器 聚类算法 空域特征 样本 噪声图像 图像解码器 EM算法 计算机视觉 线性
系统为您推荐了相关专利信息
1
一种工业场景下的多模态语义分割方法、系统、装置及存储介质
语义分割方法 语义分割模型 图像 文本 语义特征
2
基于静力-动力-环境量融合的危岩风险预警方法及系统
环境监测数据 风险预警方法 指标 深度学习算法 计算机可读指令
3
一种针对FreeRTOS缓冲区溢出漏洞的图神经网络检测方法
缓冲区溢出漏洞 矩阵 检测缓冲区溢出 神经网络模型 Word2Vec模型
4
一种基于智能识别的曲面局部喷涂方法
喷涂方法 曲面 节点特征 漆膜 喷枪
5
车辆的位置定位方法、装置、车辆及介质
场景特征 位置定位方法 地理位置信息 大语言模型 采样点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号