布局可控的视频生成方法、装置、设备、介质和产品

正文

推荐专利

申请号：CN202510940477

申请日期：2025-07-08

公开号：CN120434477B

公开日期：2025-10-17

类型：发明专利

摘要

本公开实施例公开了一种布局可控的视频生成方法、装置、设备、介质和产品，方法包括：将稀疏布局引导条件、文本信息特征和预设噪声的隐空间特征输入到预先训练的视频生成模型中进行预设时间步的去噪处理，在每个时间步的去噪处理中：视频生成模型中的插帧模块对稀疏布局引导条件进行处理，得到第一布局特征，视频生成模型中的适配器模块对第一布局特征进行引导调控处理输出第二布局特征，视频生成模型中的视频生成模块基于文本信息特征、第二布局特征和预设噪声的隐空间特征，得到中间特征，基于每个时间步的去噪处理以及每个时间步的中间特征确定目标视频。由此使提升生成的目标视频的一致性和连贯性，从而提升了目标视频的质量。

技术关键词

布局特征视频生成模型适配器噪声模块数据分布视频生成方法序列标签文本融合特征计算机程序指令样本视频生成装置图像特征提取文本编码器

系统为您推荐了相关专利信息

一种全自动海参高通量生长性状测量及预测装置和方法

图像采集模块高通量图像识别模块行走单元尺寸

基于大语言模型的上下文偏好学习方法、装置及设备

强化学习代理大语言模型学习方法评分机制指标

一种地形特征分析的道路施工方法及系统

地形特征分析路段道路施工方法多模态数据采集前馈神经网络

一种用于合成孔径雷达图像滤波的可解释性方法及系统

合成孔径雷达图像滤波器图像滤波方法均值漂移算法深度学习框架

一种基于人工智能的语音纠错方法及系统

语音输入信息汉字语音纠错方法校验模型序列

布局可控的视频生成方法、装置、设备、介质和产品

站点导航

APP 下载