摘要
本申请提供了一种场景变化可控的文生视频方法、系统和设备,涉及计算机技术领域,该方法包括:将用于描述文本输入基于空间布局融合器的视频生成器,生成视频片段,视频生成器是在U型网络每层的交叉注意力模块的开头添加空间布局融合器后得到的,空间布局融合器为文本到图像生成模型;描述文本至少包括:运动主体和运动主体从第一场景移动至第二场景的运动轨迹;通过跨片段调度机制模块,将视频生成器生成的前一个视频片段末尾的多个视频帧,输入频率混合的控制分支网络;通过频率混合的控制分支网络,采用自回归的方式,根据前一个视频片段末尾的多个视频帧,进行频率信息混合,以生成长视频,长视频为符合所述描述文本的视频。
技术关键词
运动主体
生成视频片段
视频帧
场景
图像生成模型
文本
频率
分支
样本
编码模块
混合模块
网络
注意力
轨迹
融合器
噪声
布局
数据
机制