一种基于跨模态协同学习的视频生成方法及系统

AITNT
正文
推荐专利
一种基于跨模态协同学习的视频生成方法及系统
申请号:CN202511324520
申请日期:2025-09-17
公开号:CN120835216A
公开日期:2025-10-24
类型:发明专利
摘要
本发明公开了一种基于跨模态协同学习的视频生成方法及系统,属于视频生成与多模态数据处理领域。接收多模态输入并提取多模态特征;通过改进的条件扩散模型处理多模态特征,生成视频序列;改进的条件扩散模型的每一个DiT块中包括并列设置的相机感知注意力模块和解耦交叉注意力模块,两个注意力模块均输入由图像序列潜变量处理后得到的视频潜特征,输出加权后代替原始条件扩散模型中的交叉注意力模块的输出;采用低秩自适应技术对改进的条件扩散模型进行轻量化微调,并在训练过程中引入多阶段课程学习策略。实验结果表明,本发明在多任务视频生成中表现出优异性能,能够实现高质量、精细化的场景主体和摄像机运动联合控制。
技术关键词
视频生成方法 注意力 相机 跨模态 多模态特征 全局视觉特征 运动轨迹信息 生成视频序列 模块 多阶段 语义特征 图像解码器 图像编码器 矩阵 文本 变量
系统为您推荐了相关专利信息
1
一种大负载防爆人形机器人移动底盘
车架组件 移动底盘 转向电机 周围环境信息 传感器组
2
一种支持细粒度定制的故事可视化方法
融合控制器 身份 可视化方法 交叉注意力机制 解析器
3
一种文本视频的跨模态检索方法
模态检索方法 视觉特征 视频 图像 序列
4
用于航空发动机压气机转子的盲腔拧紧机器人及工作方法
位移传感器模块 压气机转子 高精度相机 拧紧机器人 螺母套筒
5
基于多层级特征空间注意力机制的深度伪造图像检测方法
伪造图像检测方法 多层级特征 注意力机制 Sigmoid函数 语义向量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号