摘要
本申请提供一种基于多流时间控制的音画同步视频生成方法和装置。本申请的方法包括:获取参考音频和期望根据参考音频生成的音画同步视频的描述文本;将参考音频分离为语音信息、音效信息以及音乐信息;分别对描述文本、语音信息、音效信息以及音乐信息进行编码,得到文本特征、语音特征、音效特征以及音乐特征;将上述编码得到的各类特征输入视频生成模型,得到音画同步视频;视频生成模型用于随机生成对应多个时间区间的带噪声的视频潜在编码,并基于扩散模型的原理,根据文本特征、语音特征、音效特征、音乐特征以及多个时间区间预测视频潜在编码中的噪声,根据预测的噪声和视频潜在编码获得音画同步视频。本申请可有效解决相关技术中的问题。
技术关键词
视频生成模型
音乐特征
语音特征
视频生成方法
音效
编码
文本
噪声
样本
音频
视频生成装置
面部
单人
时间同步
模块
基础
训练集
系统为您推荐了相关专利信息
人脸图像特征
视频生成方法
音频
多模态特征融合
语义特征
身份标识生成方法
标识生成装置
身份标识生成系统
图片
多任务卷积神经网络
音频编码器
语义特征
声学特征
语音识别模型
文本信息提取