基于多模态扩散的长视频角色场景解耦生成方法及系统

AITNT
正文
推荐专利
基于多模态扩散的长视频角色场景解耦生成方法及系统
申请号:CN202511067463
申请日期:2025-07-31
公开号:CN120583276B
公开日期:2025-09-30
类型:发明专利
摘要
基于多模态扩散的长视频角色场景解耦生成方法及系统,涉及图像处理技术领域,包括:S1、通过SigLIP编码器与DINOv2编码器合成角色与场景的高级特征;S2、将高级特征进行跨模态特征融合得到联合特征并压缩得到紧凑向量;S3、根据文本提示生成文本特征;S4、将输入视频通过因果3D卷积编码器生成潜在编码,通过线性投影矩阵后与内存状态拼接降维得到分段潜在向量序列;S5、分段潜在向量序列通过改进的3D‑UNet进行解耦感知生成,然后确定性采样后反卷积上采样重建得到RGB视频分段序列;本发明解决长视频生成中动态控制粗糙、生成长度受限与资源消耗过高的关键问题,显著提升了生成视频的质量和效率。
技术关键词
高层语义特征 纹理特征 卷积编码器 分段 视频段 卷积解码器 路径特征 内存 场景 序列 身份 生成噪声 图像 关键帧 文本 运动特征
系统为您推荐了相关专利信息
1
一种基于人像监测的智能检测方法、系统、装置及产品
纹理特征提取 智能检测方法 图像分割算法 编码 像素点
2
一种基于三维高斯和稀疏真值锚定的单目深度补全方法
深度补全方法 稠密深度图 残差预测 像素点 上采样
3
基于分割语义引导对比学习的SAR到光学图像转换方法
语义特征提取 SAR图像分割 转换方法 编码器 空间金字塔池化
4
一种基于深度语义重构与孤立森林的动态阈值异常检测方法及系统
孤立森林算法 动态 语义特征 分段 滑动窗口
5
一种基于意图识别与反馈优化的多知识库调度路由方法
意图识别 自然语言理解 信息检索 意图类别 大语言模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号