摘要
本发明涉及数字人合成技术领域,具体公开了一种基于语音驱动人工智能的交互数字人合成方法,所述方法包括:S1:通过数据采集单元采集不同的渠道和平台提交的语音数据,并对输入的音频原始数据进行预处理,包括语音过滤、语音特征数值化,通过基于Audio2DHuman深度学习模型,通过输入的语音信号提取出音频特征,预测面部关键点运动权重和手势、头部动画参数,进而生成与数字人语言播报内容精确同步的面部表情及流畅手势、头部动作,实现对数字人的高效驱动与自然交互,从而实现将语音中蕴含的语义和情感表达同步映射到虚拟人3D模型面部、手势、肢体动作渲染中,从而极大地增强了数字人情感的真实性和专业性。
技术关键词
手势
音频特征
深度学习模型
因子权重
语音特征
网络结构
模型训练模块
数据采集单元
数据处理单元
语音信号提取
线性预测编码
数值
指标
面部关键点
溯源标识
随机梯度下降
系统为您推荐了相关专利信息
特征提取模块
木马
识别系统
系统管理模块
多设备
轻量级深度神经网络
上肢
手势
非线性特征提取
样本
检查图像处理
亮度
三角剖分算法
深度学习模型
解剖结构区域
多模态深度
模态特征
音频编码器
表达式
视频特征提取
风险预测系统
心电采集设备
电信号
递归最小二乘算法
数据采集模块