摘要
本发明涉及一种基于视频扩散模型的相机条件引导视点合成方法,属于计算机视觉技术领域,该方法以稳定视频扩散模型SVD为基础生成器,联合输入高斯噪声与编码后的图像潜在表示,同时使用基于时间注意力机制的位姿编码器对Plücker坐标表征的相机参数进行编码,然后作为姿态条件嵌入到视频扩散模型去噪U‑Net中的时间注意力层;通过图像编码嵌入网络将输入单图像的像素级特征提取出来,并作为图像特征条件嵌入到视频扩散模型去噪U‑Net中的空间注意力层,对预训练视频扩散模型进行微调,提高合成图像和输入图像的空间一致性以及合成图像与相机参数的轨迹一致性,在提高生成质量的同时增加生成多样性。
技术关键词
编码器
相机
图像编码
语义特征
网络
交叉注意力机制
解码器
姿态特征
视频图像帧序列
多尺度
噪声
嵌入特征
坐标
视频帧
计算机视觉技术
模块