基于深度学习和声音克隆的实时交互3D数字全息舱方法

正文

推荐专利

申请号：CN202510803896

申请日期：2025-06-17

公开号：CN120318437B

公开日期：2025-08-19

类型：发明专利

摘要

本发明公开了一种基于深度学习和声音克隆的实时交互3D数字全息舱方法，包括如下步骤：S1、采集用户数据并进行预处理；S2、提取面部表情和肢体动作特征向量；S3、利用改进的GE2E网络和预设的目标语音文本生成语音合成数据；S4、基于语音合成数据生成合成语音音频；S5、根据面部表情特征向量和肢体动作特征向量生成三维数字人动作序列；S6、将三维数字人动作序列和合成语音音频进行时间戳对齐，构建同步输出流；S7、对同步输出流进行渲染，进行立体可视化输出。本发明融合改进的GE2E网络、深度学习与声音克隆方法，实现三维虚拟人语音动作同步控制，具备实时性强、沉浸感高、交互自然的优点。

技术关键词

文本编码器序列编码模块联合损失函数生成语音声学特征门控循环单元面部声码器声音克隆方法语义向量深度卷积神经网络人体姿态估计短时傅里叶变换双曲正切函数音频图像

基于深度学习和声音克隆的实时交互3D数字全息舱方法

站点导航

APP 下载