基于多流时间控制的音画同步视频生成方法和装置

正文

推荐专利

申请号：CN202510747585

申请日期：2025-06-05

公开号：CN120568155B

公开日期：2025-12-09

类型：发明专利

摘要

本申请提供一种基于多流时间控制的音画同步视频生成方法和装置。本申请的方法包括：获取参考音频和期望根据参考音频生成的音画同步视频的描述文本；将参考音频分离为语音信息、音效信息以及音乐信息；分别对描述文本、语音信息、音效信息以及音乐信息进行编码，得到文本特征、语音特征、音效特征以及音乐特征；将上述编码得到的各类特征输入视频生成模型，得到音画同步视频；视频生成模型用于随机生成对应多个时间区间的带噪声的视频潜在编码，并基于扩散模型的原理，根据文本特征、语音特征、音效特征、音乐特征以及多个时间区间预测视频潜在编码中的噪声，根据预测的噪声和视频潜在编码获得音画同步视频。本申请可有效解决相关技术中的问题。

技术关键词

视频生成模型音乐特征语音特征视频生成方法音效编码文本噪声样本音频视频生成装置面部单人时间同步模块基础训练集

系统为您推荐了相关专利信息

一种认知功能评估方法、装置、可读存储介质及电子设备

认知功能评估语音特征数据眼动特征答题量表

基于音频驱动的视频生成方法、装置、设备及介质

人脸图像特征视频生成方法音频多模态特征融合语义特征

语音处理模型的训练方法、语音处理方法、装置及设备

语义语音特征样本信号编码器

一种数字人身份标识生成方法和装置

身份标识生成方法标识生成装置身份标识生成系统图片多任务卷积神经网络

一种语音合成方法、装置、设备及其存储介质

音频编码器语义特征声学特征语音识别模型文本信息提取

基于多流时间控制的音画同步视频生成方法和装置

站点导航

APP 下载