一种基于跨模态协同学习的视频生成方法及系统

正文

推荐专利

申请号：CN202511324520

申请日期：2025-09-17

公开号：CN120835216A

公开日期：2025-10-24

类型：发明专利

摘要

本发明公开了一种基于跨模态协同学习的视频生成方法及系统，属于视频生成与多模态数据处理领域。接收多模态输入并提取多模态特征；通过改进的条件扩散模型处理多模态特征，生成视频序列；改进的条件扩散模型的每一个DiT块中包括并列设置的相机感知注意力模块和解耦交叉注意力模块，两个注意力模块均输入由图像序列潜变量处理后得到的视频潜特征，输出加权后代替原始条件扩散模型中的交叉注意力模块的输出；采用低秩自适应技术对改进的条件扩散模型进行轻量化微调，并在训练过程中引入多阶段课程学习策略。实验结果表明，本发明在多任务视频生成中表现出优异性能，能够实现高质量、精细化的场景主体和摄像机运动联合控制。

技术关键词

视频生成方法注意力相机跨模态多模态特征全局视觉特征运动轨迹信息生成视频序列模块多阶段语义特征图像解码器图像编码器矩阵文本变量

系统为您推荐了相关专利信息

一种大负载防爆人形机器人移动底盘

车架组件移动底盘转向电机周围环境信息传感器组

一种支持细粒度定制的故事可视化方法

融合控制器身份可视化方法交叉注意力机制解析器

一种文本视频的跨模态检索方法

模态检索方法视觉特征视频图像序列

用于航空发动机压气机转子的盲腔拧紧机器人及工作方法

位移传感器模块压气机转子高精度相机拧紧机器人螺母套筒

基于多层级特征空间注意力机制的深度伪造图像检测方法

伪造图像检测方法多层级特征注意力机制 Sigmoid函数语义向量

一种基于跨模态协同学习的视频生成方法及系统

站点导航

APP 下载