摘要
本申请公开了一种转场视频生成方法及系统,属于图像生成技术领域。本申请方法将首尾两帧图像分别输入变分自动编码器,以提取其潜在特征,并在正序和倒序的潜在特征之间引入预设帧数的噪声。接着,对首尾两帧图像进行描述,使用文本特征提取器提取相应的文本特征,并通过球面线性插值获得与帧数对应的图像描述特征。随后,这些描述与潜在特征共同输入预训练的文本和图像引导的视频生成扩散模型进行去噪处理。在去噪过程中,生成包含中间帧信息的噪声特征,并通过高斯过程对正序和倒序噪声特征施加时序约束。接下来,进行高低频分离与加权融合,再次进行去噪处理。最终,利用视频生成模型的解码器生成首尾两帧之间连贯流畅的转场视频。
技术关键词
视频生成方法
噪声特征
变分自动编码器
视频生成系统
高频特征
文本特征向量
解码器
捕获特征
去噪模型
特征提取器
视频生成模型
图像生成技术
交叉注意力机制
视频帧
线性插值方法
系统为您推荐了相关专利信息
人脸面部特征
生成特征
视频生成方法
文本
多模态
注意力机制
对话生成模型
人脸
视频生成方法
音频编码器
场景生成方法
分支
三维场景建模技术
文本编码器
多层注意力机制
视频生成方法
视频生成模型
视频压缩
编码器
生成高分辨率
噪声特征
图像生成模型
图像生成方法
样本
图像特征值