一种基于视频扩散模型的相机条件引导视点合成方法

正文

推荐专利

申请号：CN202510667631

申请日期：2025-05-22

公开号：CN120976332A

公开日期：2025-11-18

类型：发明专利

摘要

本发明涉及一种基于视频扩散模型的相机条件引导视点合成方法，属于计算机视觉技术领域，该方法以稳定视频扩散模型SVD为基础生成器，联合输入高斯噪声与编码后的图像潜在表示，同时使用基于时间注意力机制的位姿编码器对Plücker坐标表征的相机参数进行编码，然后作为姿态条件嵌入到视频扩散模型去噪U‑Net中的时间注意力层；通过图像编码嵌入网络将输入单图像的像素级特征提取出来，并作为图像特征条件嵌入到视频扩散模型去噪U‑Net中的空间注意力层，对预训练视频扩散模型进行微调，提高合成图像和输入图像的空间一致性以及合成图像与相机参数的轨迹一致性，在提高生成质量的同时增加生成多样性。

技术关键词

编码器相机图像编码语义特征网络交叉注意力机制解码器姿态特征视频图像帧序列多尺度噪声嵌入特征坐标视频帧计算机视觉技术模块

一种基于视频扩散模型的相机条件引导视点合成方法

站点导航

APP 下载