摘要
本发明公开了视频语音生成模型的训练方法、视频合成方法及相关设备,训练方法包括:构建音频到音频的第一模型以及视频到音频的第二模型,第一模型中的第一音频解码器和第二模型中的第二音频解码器的结构相同;采集大量单声道数据对第一模型进行预训练,保存第一模型完成预训练时第一音频解码器的参数;根据第一音频解码器的参数对第二音频解码器进行初始化;将目标场景下采集的视频数据集输入到初始化的第二模型中进行训练,直到满足预设收敛条件则完成训练,得到视频语音生成模型。通过预训练音频解码器对模型进行初始化,使模型在保留预训练语音特征的同时还可适应目标场景数据集的特点,提高视频语音合成中生成语音的质量,从而提高合成效果。
技术关键词
语音生成模型
音频解码器
非易失性计算机可读存储介质
视频帧编码器
音频编码器
语音特征
计算机可执行指令
人脸特征
视觉特征
参数
数据
处理器
场景
视频编码器
生成语音
模块
身份
系统为您推荐了相关专利信息
多模态
眼动数据
双向长短期记忆网络
热力图
学生
巡检信息
智能巡检设备
监测方法
交通
三维空间模型
视频生成方法
生成对抗式网络
音视频
MFCC算法
人脸图像信息
注视点预测方法
多模态深度学习
视频编码器
视角
融合特征