摘要
本发明公开了一种基于结构化时空稀疏性的快速视频生成方法及系统,属于计算机视觉与人工智能领域。本发明系统性分析揭示了视频扩散模型中注意力矩阵所固有的结构化且异构的稀疏模式,其核心在于:1)自适应分块策略,通过动态的图块分组来近似多样的空间交互模式;2)时序变化的窗口,根据帧间距离动态调整稀疏级别;3)自动化的配置搜索算法,在保持关键注意力路径的同时优化稀疏模式。本发明通过离线预计算优化的稀疏注意力掩码,在推理阶段直接应用于注意力计算,从而在保持与全注意力基线相当的视觉质量的同时,在单GPU上实现1.8至2.5倍的注意力计算加速,为高效的长视频生成提供了全新的解决路径。
技术关键词
注意力
视频生成模型
视频生成方法
搜索方法
离线
计算机电子设备
视频生成系统
分块策略
存储计算机程序
十字形
计算机视觉
搜索算法
模式识别
模块
在线
处理器
阶段
可读存储介质
系统为您推荐了相关专利信息
图像分割模型
图像分割方法
卷积模块
并行视觉
通道注意力机制
情感分析模型
情感分析方法
感知特征
注意力
卷积模块
图像生成方法
实例分割
文本
跨模态
图像生成装置
高精度姿态估计方法
关键点
注意力
噪声图像
动态权重分配