摘要
基于多模态扩散的长视频角色场景解耦生成方法及系统,涉及图像处理技术领域,包括:S1、通过SigLIP编码器与DINOv2编码器合成角色与场景的高级特征;S2、将高级特征进行跨模态特征融合得到联合特征并压缩得到紧凑向量;S3、根据文本提示生成文本特征;S4、将输入视频通过因果3D卷积编码器生成潜在编码,通过线性投影矩阵后与内存状态拼接降维得到分段潜在向量序列;S5、分段潜在向量序列通过改进的3D‑UNet进行解耦感知生成,然后确定性采样后反卷积上采样重建得到RGB视频分段序列;本发明解决长视频生成中动态控制粗糙、生成长度受限与资源消耗过高的关键问题,显著提升了生成视频的质量和效率。
技术关键词
高层语义特征
纹理特征
卷积编码器
分段
视频段
卷积解码器
路径特征
内存
场景
序列
身份
生成噪声
图像
关键帧
文本
运动特征
系统为您推荐了相关专利信息
纹理特征提取
智能检测方法
图像分割算法
编码
像素点
深度补全方法
稠密深度图
残差预测
像素点
上采样
语义特征提取
SAR图像分割
转换方法
编码器
空间金字塔池化
意图识别
自然语言理解
信息检索
意图类别
大语言模型