摘要
本发明提供的一种基于DIT的多模态视频生成方法、装置、设备及介质,涉及多模态视频生成技术领域。本发明通过Whisper模型与3D卷积层提取出输入的音频信号的音频特征,并与加入噪声的潜层特征进行融合,生成音频嵌入特征;获取嘴巴位置掩码信息与首帧参考掩码信息,分别提取出嘴巴区域的掩码嵌入特征和首帧嵌入特征;将潜层特征、音频嵌入特征与掩码嵌入特征进行加法融合得到第一融合特征,并将首帧嵌入特征与输入的首帧参考图像进行融合得到第二融合特征;将第一融合特征、第二融合特征与输入的提示文本一起输入预训练的DIT口型对齐模型,生成视频。本申请能够实现高质量视频生成与精准口型对齐,解决了现有GAN模型生成视频不连贯及细节控制不足的问题。
技术关键词
嵌入特征
视频生成方法
融合特征
矩形外框
计算机可读指令
平滑方法
图像嵌入
坐标
视频生成设备
视频生成技术
可读存储介质
视频生成装置
音频特征提取
GAN模型
噪声
人脸
系统为您推荐了相关专利信息
速度控制策略
糖茶
监测管理方法
融合特征
塔格糖
HRRP识别方法
扩展模块
对抗性
标签
多视角特征