基于多流时间控制的音画同步视频生成方法和装置

AITNT
正文
推荐专利
基于多流时间控制的音画同步视频生成方法和装置
申请号:CN202510747585
申请日期:2025-06-05
公开号:CN120568155B
公开日期:2025-12-09
类型:发明专利
摘要
本申请提供一种基于多流时间控制的音画同步视频生成方法和装置。本申请的方法包括:获取参考音频和期望根据参考音频生成的音画同步视频的描述文本;将参考音频分离为语音信息、音效信息以及音乐信息;分别对描述文本、语音信息、音效信息以及音乐信息进行编码,得到文本特征、语音特征、音效特征以及音乐特征;将上述编码得到的各类特征输入视频生成模型,得到音画同步视频;视频生成模型用于随机生成对应多个时间区间的带噪声的视频潜在编码,并基于扩散模型的原理,根据文本特征、语音特征、音效特征、音乐特征以及多个时间区间预测视频潜在编码中的噪声,根据预测的噪声和视频潜在编码获得音画同步视频。本申请可有效解决相关技术中的问题。
技术关键词
视频生成模型 音乐特征 语音特征 视频生成方法 音效 编码 文本 噪声 样本 音频 视频生成装置 面部 单人 时间同步 模块 基础 训练集
系统为您推荐了相关专利信息
1
一种认知功能评估方法、装置、可读存储介质及电子设备
认知功能评估 语音特征数据 眼动特征 答题 量表
2
基于音频驱动的视频生成方法、装置、设备及介质
人脸图像特征 视频生成方法 音频 多模态特征融合 语义特征
3
语音处理模型的训练方法、语音处理方法、装置及设备
语义 语音特征 样本 信号 编码器
4
一种数字人身份标识生成方法和装置
身份标识生成方法 标识生成装置 身份标识生成系统 图片 多任务卷积神经网络
5
一种语音合成方法、装置、设备及其存储介质
音频编码器 语义特征 声学特征 语音识别模型 文本信息提取
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号