摘要
本发明公开了基于扩散模型的动态场景重运镜视频生成方法和系统,属于计算机视觉与视频生成技术领域。采用一个带控制分支的扩散生成架构,核心由嵌入层、一个主分支和一个控制分支组成。在控制分支中,每个子块的输出经过零初始线性层处理后会与主分支对应块的输出相加,其和再输入主分支的下一个块。训练时,利用同一场景下目标视频和参考视频生成渲染视频;将加噪后的目标视频潜变量输入控制分支,而目标视频、参考视频及渲染视频潜变量的拼接结果输入主分支,同时向两分支提供参考视频的文本潜变量作为条件。生成时,模型通过逐步去噪最终生成目标视频潜变量并解码为目标轨迹视频,确保生成视频与参考视频在相同时间下场景中运动物体动作一致。
技术关键词
动态场景
视频生成方法
分支
相机
轨迹
动态物体
点云
文本
深度图
噪声
变量获取方法
视频生成技术
视频生成系统
关键帧
视频生成模型
像素点
深度值
阶段
系统为您推荐了相关专利信息
数据安全存储系统
无人机飞行数据
信息处理
数据验证
星际文件系统
无人搬运车
人脸识别数据库
碰撞预警方法
实时位置
障碍物
门禁管控系统
碳排放测算模型
车牌识别模型
车辆
字符识别
三维点云数据
栅格地图
三维环境模型
三维环境建模方法
计算机执行指令