摘要
本发明公开了一种基于深度学习和声音克隆的实时交互3D数字全息舱方法,包括如下步骤:S1、采集用户数据并进行预处理;S2、提取面部表情和肢体动作特征向量;S3、利用改进的GE2E网络和预设的目标语音文本生成语音合成数据;S4、基于语音合成数据生成合成语音音频;S5、根据面部表情特征向量和肢体动作特征向量生成三维数字人动作序列;S6、将三维数字人动作序列和合成语音音频进行时间戳对齐,构建同步输出流;S7、对同步输出流进行渲染,进行立体可视化输出。本发明融合改进的GE2E网络、深度学习与声音克隆方法,实现三维虚拟人语音动作同步控制,具备实时性强、沉浸感高、交互自然的优点。
技术关键词
文本编码器
序列
编码模块
联合损失函数
生成语音
声学特征
门控循环单元
面部
声码器
声音克隆方法
语义向量
深度卷积神经网络
人体姿态估计
短时傅里叶变换
双曲正切函数
音频
图像