一种场景变化可控的文生视频方法、系统和设备

正文

推荐专利

申请号：CN202411842004

申请日期：2024-12-13

公开号：CN119583907B

公开日期：2025-10-28

类型：发明专利

摘要

本申请提供了一种场景变化可控的文生视频方法、系统和设备，涉及计算机技术领域，该方法包括：将用于描述文本输入基于空间布局融合器的视频生成器，生成视频片段，视频生成器是在U型网络每层的交叉注意力模块的开头添加空间布局融合器后得到的，空间布局融合器为文本到图像生成模型；描述文本至少包括：运动主体和运动主体从第一场景移动至第二场景的运动轨迹；通过跨片段调度机制模块，将视频生成器生成的前一个视频片段末尾的多个视频帧，输入频率混合的控制分支网络；通过频率混合的控制分支网络，采用自回归的方式，根据前一个视频片段末尾的多个视频帧，进行频率信息混合，以生成长视频，长视频为符合所述描述文本的视频。

技术关键词

运动主体生成视频片段视频帧场景图像生成模型文本频率分支样本编码模块混合模块网络注意力轨迹融合器噪声布局数据机制

一种场景变化可控的文生视频方法、系统和设备

站点导航

APP 下载