一种基于DIT的多模态视频生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510936145

申请日期：2025-07-08

公开号：CN120602746A

公开日期：2025-09-05

类型：发明专利

摘要

本发明提供的一种基于DIT的多模态视频生成方法、装置、设备及介质，涉及多模态视频生成技术领域。本发明通过Whisper模型与3D卷积层提取出输入的音频信号的音频特征，并与加入噪声的潜层特征进行融合，生成音频嵌入特征；获取嘴巴位置掩码信息与首帧参考掩码信息，分别提取出嘴巴区域的掩码嵌入特征和首帧嵌入特征；将潜层特征、音频嵌入特征与掩码嵌入特征进行加法融合得到第一融合特征，并将首帧嵌入特征与输入的首帧参考图像进行融合得到第二融合特征；将第一融合特征、第二融合特征与输入的提示文本一起输入预训练的DIT口型对齐模型，生成视频。本申请能够实现高质量视频生成与精准口型对齐，解决了现有GAN模型生成视频不连贯及细节控制不足的问题。

技术关键词

嵌入特征视频生成方法融合特征矩形外框计算机可读指令平滑方法图像嵌入坐标视频生成设备视频生成技术可读存储介质视频生成装置音频特征提取 GAN模型噪声人脸

系统为您推荐了相关专利信息

塔格糖无糖茶的生产监测管理方法及系统

速度控制策略糖茶监测管理方法融合特征塔格糖

一种基于文本指令引导的可控图像生成方法及系统

图像生成方法编辑注意力文本大语言模型

内镜下肠道评估方法、系统、装置及存储介质

分段纹理掩膜血管矩阵

一种基于稀疏视角特征生成融合的雷达目标HRRP识别方法

HRRP识别方法扩展模块对抗性标签多视角特征

一种用于视频分类的方法、装置及设备

视频视觉特征融合特征点云特征 LSTM模型

一种基于DIT的多模态视频生成方法、装置、设备及介质

站点导航

APP 下载