摘要
本发明提供了一种讲话视频合成方法和系统,该方法包括:将讲话音频输入预训练的音频‑动作编码器,以从讲话音频提取语音特征序列以及根据语音特征序列生成面部的动作序列;将从第一视角拍摄的单张二维人脸图片输入预训练的图片编码器,提取该人脸图片所含对象的三维身份特征;将三维身份特征和情绪标签输入预训练的情绪映射层,融合得到含情绪的三维身份特征;将动作序列和含情绪的三维身份特征输入基于神经辐射场的视频生成网络,通过神经辐射场和相机参数,来合成所需第二视角的、与所述讲话音频相匹配的所述对象的讲话视频,其中,通过相机参数能在预定范围内调整第二视角。
技术关键词
语音特征
情绪特征
视频
序列
身份
人脸图片
音频编码器
视角
语音识别模型
参数
图像
标签
相机
面部
对象
重建人脸