视频语音生成模型的训练方法、视频合成方法及相关设备

AITNT
正文
推荐专利
视频语音生成模型的训练方法、视频合成方法及相关设备
申请号:CN202410975092
申请日期:2024-07-19
公开号:CN119028359A
公开日期:2024-11-26
类型:发明专利
摘要
本发明公开了视频语音生成模型的训练方法、视频合成方法及相关设备,训练方法包括:构建音频到音频的第一模型以及视频到音频的第二模型,第一模型中的第一音频解码器和第二模型中的第二音频解码器的结构相同;采集大量单声道数据对第一模型进行预训练,保存第一模型完成预训练时第一音频解码器的参数;根据第一音频解码器的参数对第二音频解码器进行初始化;将目标场景下采集的视频数据集输入到初始化的第二模型中进行训练,直到满足预设收敛条件则完成训练,得到视频语音生成模型。通过预训练音频解码器对模型进行初始化,使模型在保留预训练语音特征的同时还可适应目标场景数据集的特点,提高视频语音合成中生成语音的质量,从而提高合成效果。
技术关键词
语音生成模型 音频解码器 非易失性计算机可读存储介质 视频帧编码器 音频编码器 语音特征 计算机可执行指令 人脸特征 视觉特征 参数 数据 处理器 场景 视频编码器 生成语音 模块 身份
系统为您推荐了相关专利信息
1
基于多模态对齐的学习过程专注程度判断的方法及系统
多模态 眼动数据 双向长短期记忆网络 热力图 学生
2
一种交通隧道的巡检安全监测方法、设备及介质
巡检信息 智能巡检设备 监测方法 交通 三维空间模型
3
基于LSTM-CBAM的音视频同步人脸视频生成方法
视频生成方法 生成对抗式网络 音视频 MFCC算法 人脸图像信息
4
一种基于多模态深度学习的第一人称视角注视点预测方法
注视点预测方法 多模态深度学习 视频编码器 视角 融合特征
5
一种音乐生成的方法、装置及电子设备
音乐 音频编码 文本 样本 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号