一种基于DIT的多模态视频生成方法、装置、设备及介质

AITNT
正文
推荐专利
一种基于DIT的多模态视频生成方法、装置、设备及介质
申请号:CN202510936145
申请日期:2025-07-08
公开号:CN120602746A
公开日期:2025-09-05
类型:发明专利
摘要
本发明提供的一种基于DIT的多模态视频生成方法、装置、设备及介质,涉及多模态视频生成技术领域。本发明通过Whisper模型与3D卷积层提取出输入的音频信号的音频特征,并与加入噪声的潜层特征进行融合,生成音频嵌入特征;获取嘴巴位置掩码信息与首帧参考掩码信息,分别提取出嘴巴区域的掩码嵌入特征和首帧嵌入特征;将潜层特征、音频嵌入特征与掩码嵌入特征进行加法融合得到第一融合特征,并将首帧嵌入特征与输入的首帧参考图像进行融合得到第二融合特征;将第一融合特征、第二融合特征与输入的提示文本一起输入预训练的DIT口型对齐模型,生成视频。本申请能够实现高质量视频生成与精准口型对齐,解决了现有GAN模型生成视频不连贯及细节控制不足的问题。
技术关键词
嵌入特征 视频生成方法 融合特征 矩形外框 计算机可读指令 平滑方法 图像嵌入 坐标 视频生成设备 视频生成技术 可读存储介质 视频生成装置 音频特征提取 GAN模型 噪声 人脸
系统为您推荐了相关专利信息
1
塔格糖无糖茶的生产监测管理方法及系统
速度控制策略 糖茶 监测管理方法 融合特征 塔格糖
2
一种基于文本指令引导的可控图像生成方法及系统
图像生成方法 编辑 注意力 文本 大语言模型
3
内镜下肠道评估方法、系统、装置及存储介质
分段 纹理 掩膜 血管 矩阵
4
一种基于稀疏视角特征生成融合的雷达目标HRRP识别方法
HRRP识别方法 扩展模块 对抗性 标签 多视角特征
5
一种用于视频分类的方法、装置及设备
视频 视觉特征 融合特征 点云特征 LSTM模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号