摘要
一种基于深度约束的街景视频生成方法,属于可控视频生成技术领域。本发明针对现有深度引导的视频生成方法不能将信息有效融合,视频生成质量差的问题。包括:由街景词向量和高维相机参数向量得到街景文本嵌入;由深度图一维序列和一维噪声序列相加得到深度特征条件序列;采用ControlNet分支网络对所述街景文本嵌入和所述深度特征条件序列进行融合,得到深度控制特征;扩散模型主干网络在街景文本嵌入的引导下,将一维噪声序列与所述深度控制特征进行融合,获得噪声到一维视频序列潜空间特征的向量场;反复迭代得到所述一维视频序列潜空间特征,再经3D VAE解码器还原得到街景视频。本本发明用于生成街景视频。
技术关键词
街景视频生成方法
注意力
序列
网络
深度图
平稳小波
噪声
分支
模块
离散特征
相机
视频生成技术
参数
解码器
语义
文本编码器