视频语音生成模型的训练方法、视频合成方法及相关设备

正文

推荐专利

申请号：CN202410975092

申请日期：2024-07-19

公开号：CN119028359A

公开日期：2024-11-26

类型：发明专利

摘要

本发明公开了视频语音生成模型的训练方法、视频合成方法及相关设备，训练方法包括：构建音频到音频的第一模型以及视频到音频的第二模型，第一模型中的第一音频解码器和第二模型中的第二音频解码器的结构相同；采集大量单声道数据对第一模型进行预训练，保存第一模型完成预训练时第一音频解码器的参数；根据第一音频解码器的参数对第二音频解码器进行初始化；将目标场景下采集的视频数据集输入到初始化的第二模型中进行训练，直到满足预设收敛条件则完成训练，得到视频语音生成模型。通过预训练音频解码器对模型进行初始化，使模型在保留预训练语音特征的同时还可适应目标场景数据集的特点，提高视频语音合成中生成语音的质量，从而提高合成效果。

技术关键词

语音生成模型音频解码器非易失性计算机可读存储介质视频帧编码器音频编码器语音特征计算机可执行指令人脸特征视觉特征参数数据处理器场景视频编码器生成语音模块身份

系统为您推荐了相关专利信息

基于多模态对齐的学习过程专注程度判断的方法及系统

多模态眼动数据双向长短期记忆网络热力图学生

一种交通隧道的巡检安全监测方法、设备及介质

巡检信息智能巡检设备监测方法交通三维空间模型

基于LSTM-CBAM的音视频同步人脸视频生成方法

视频生成方法生成对抗式网络音视频 MFCC算法人脸图像信息

一种基于多模态深度学习的第一人称视角注视点预测方法

注视点预测方法多模态深度学习视频编码器视角融合特征

一种音乐生成的方法、装置及电子设备

音乐音频编码文本样本序列

视频语音生成模型的训练方法、视频合成方法及相关设备

站点导航

APP 下载