一种基于语音驱动人工智能的交互数字人合成方法

正文

推荐专利

申请号：CN202411446325

申请日期：2024-10-16

公开号：CN118969009B

公开日期：2025-02-18

类型：发明专利

摘要

本发明涉及数字人合成技术领域，具体公开了一种基于语音驱动人工智能的交互数字人合成方法，所述方法包括：S1：通过数据采集单元采集不同的渠道和平台提交的语音数据，并对输入的音频原始数据进行预处理，包括语音过滤、语音特征数值化，通过基于Audio2DHuman深度学习模型，通过输入的语音信号提取出音频特征，预测面部关键点运动权重和手势、头部动画参数，进而生成与数字人语言播报内容精确同步的面部表情及流畅手势、头部动作，实现对数字人的高效驱动与自然交互，从而实现将语音中蕴含的语义和情感表达同步映射到虚拟人3D模型面部、手势、肢体动作渲染中，从而极大地增强了数字人情感的真实性和专业性。

技术关键词

手势音频特征深度学习模型因子权重语音特征网络结构模型训练模块数据采集单元数据处理单元语音信号提取线性预测编码数值指标面部关键点溯源标识随机梯度下降

系统为您推荐了相关专利信息

基于深度学习的物联网木马行为识别系统

特征提取模块木马识别系统系统管理模块多设备

一种用于上肢复合动作识别的FMG信号增强预处理方法

轻量级深度神经网络上肢手势非线性特征提取样本

一种基于多曝光融合的检查图像处理方法

检查图像处理亮度三角剖分算法深度学习模型解剖结构区域

一种多模态深度伪造检测方法及系统

多模态深度模态特征音频编码器表达式视频特征提取

一种基于远程中医诊疗的冠心病风险预测系统

风险预测系统心电采集设备电信号递归最小二乘算法数据采集模块

一种基于语音驱动人工智能的交互数字人合成方法

站点导航

APP 下载