基于多模态扩散的长视频角色场景解耦生成方法及系统

正文

推荐专利

申请号：CN202511067463

申请日期：2025-07-31

公开号：CN120583276B

公开日期：2025-09-30

类型：发明专利

摘要

基于多模态扩散的长视频角色场景解耦生成方法及系统，涉及图像处理技术领域，包括：S1、通过SigLIP编码器与DINOv2编码器合成角色与场景的高级特征；S2、将高级特征进行跨模态特征融合得到联合特征并压缩得到紧凑向量；S3、根据文本提示生成文本特征；S4、将输入视频通过因果3D卷积编码器生成潜在编码，通过线性投影矩阵后与内存状态拼接降维得到分段潜在向量序列；S5、分段潜在向量序列通过改进的3D‑UNet进行解耦感知生成，然后确定性采样后反卷积上采样重建得到RGB视频分段序列；本发明解决长视频生成中动态控制粗糙、生成长度受限与资源消耗过高的关键问题，显著提升了生成视频的质量和效率。

技术关键词

高层语义特征纹理特征卷积编码器分段视频段卷积解码器路径特征内存场景序列身份生成噪声图像关键帧文本运动特征

系统为您推荐了相关专利信息

一种基于人像监测的智能检测方法、系统、装置及产品

纹理特征提取智能检测方法图像分割算法编码像素点

一种基于三维高斯和稀疏真值锚定的单目深度补全方法

深度补全方法稠密深度图残差预测像素点上采样

基于分割语义引导对比学习的SAR到光学图像转换方法

语义特征提取 SAR图像分割转换方法编码器空间金字塔池化

一种基于深度语义重构与孤立森林的动态阈值异常检测方法及系统

孤立森林算法动态语义特征分段滑动窗口

一种基于意图识别与反馈优化的多知识库调度路由方法

意图识别自然语言理解信息检索意图类别大语言模型

基于多模态扩散的长视频角色场景解耦生成方法及系统

站点导航

APP 下载