摘要
本发明公开了一种基于光流信息的扩散模型视频生成方法。首先对现有数据集中的视频进行预处理,获取参考图像信息和光流信息;然后使用标准Stable Diffusion模型作为视频生成的主干网络;使用两个与标准SD模型中Unet结构相同的Unet分别提取参考图像特征和光流特征,参考图像特征在自注意力层与SD模型Unet的自注意力层进行融合,光流特征在交叉注意力层和SD模型Unet的时序注意力层进行融合。同时为了更好的利用光流信息,本发明提出了运动损失来进一步提高网络的生成效果。另外,本发明也采用了多样化的提示信息使得网络能够获得更加稳定的生成效果。
技术关键词
注意力
视频生成方法
时序
光流特征
噪声
网络
图像
图片
编码器
输出特征
光流算法
运动
代表
序列
解码器
参数
通道
矩阵
分辨率