摘要
本公开实施例公开了一种布局可控的视频生成方法、装置、设备、介质和产品,方法包括:将稀疏布局引导条件、文本信息特征和预设噪声的隐空间特征输入到预先训练的视频生成模型中进行预设时间步的去噪处理,在每个时间步的去噪处理中:视频生成模型中的插帧模块对稀疏布局引导条件进行处理,得到第一布局特征,视频生成模型中的适配器模块对第一布局特征进行引导调控处理输出第二布局特征,视频生成模型中的视频生成模块基于文本信息特征、第二布局特征和预设噪声的隐空间特征,得到中间特征,基于每个时间步的去噪处理以及每个时间步的中间特征确定目标视频。由此使提升生成的目标视频的一致性和连贯性,从而提升了目标视频的质量。
技术关键词
布局特征
视频生成模型
适配器
噪声
模块
数据分布
视频生成方法
序列
标签文本
融合特征
计算机程序指令
样本
视频生成装置
图像特征提取
文本编码器
系统为您推荐了相关专利信息
图像采集模块
高通量
图像识别模块
行走单元
尺寸
强化学习代理
大语言模型
学习方法
评分机制
指标
地形特征分析
路段
道路施工方法
多模态数据采集
前馈神经网络
合成孔径雷达图像
滤波器
图像滤波方法
均值漂移算法
深度学习框架