摘要
本发明公开了一种基于视频扩散模型的相机轨迹可控长视频生成方法及系统。包括相机轨迹与初始帧准备阶段、点云构建与多视角图像生成阶段、尺度因子对齐优化阶段、相机运动先验注入与噪声初始化阶段、扩散反演生成阶段以及滑动窗口时间一致性融合阶段。本发明将三维相机轨迹建模、投影重建和扩散过程结合,显式引导视频内容生成过程对准用户设定的轨迹路径,实现了结构合理、视觉自然、时间连续的长视频生成。
技术关键词
视频生成方法
轨迹可控
单目深度估计
滑动窗口
噪声先验
点云
生成投影图像
图像修复模型
摄像机
矩阵
深度图
阶段
文本编码器
三维相机
噪声预测