摘要
一种无需微调的多文本长视频生成方法,称为DuFree,利用双流视频扩散模型(DVDM),并设计了逐帧提示和维度压缩注意力模块,以确保在多个提示词之间实现平滑过渡,同时保留细节。DVDM通过专家自适应LayerNorm(AdaLN)模块分别处理文本和视觉输入,提升内容质量。逐帧提示模块通过维护提示词队列,实现视频帧间平滑过渡;维度压缩注意力模块压缩多个提示词,缓解训练‑推理差距,保留纹理细节。本方法在自动度量和人类评估中均表现优越,尤其在跟踪强度和时间运动平滑度方面,解决了现有模型在多提示词和长视频生成中的挑战,实现了高质量、时间一致且运动平滑的长视频生成。
技术关键词
视频生成方法
队列
注意力
文本
模块
视频生成模型
视频帧间
视觉
编码
噪声强度
计算机程序产品
基础
平滑度
纹理
可读存储介质
处理器
系统为您推荐了相关专利信息
脑电信号特征
大数据
数据处理模型
天气
机载激光雷达
传感器阵列定位
空间声
声传感器阵列
OFDM方式
载波