摘要
本发明公开了一种基于音频驱动的3D数字人面部表情合成方法及可视化系统,所述方法包括:获取数据集;将数据集中的原始音频输入模型中的音频编码器,提取音频特征;将音频特征输入模型中的基于KAN的解码器,生成3D数字人面部表情动作;将3D数字人面部表情动作输入模型中的图编码器,提取唇部特征;通过构建融合音频特征、3D面部表情参数与唇部特征的联合损失函数,实现多模态特征的协同优化与模型训练;将待测试的原始音频输入训练好的模型,依次经过音频编码器和KAN解码器,生成对应的3D数字人面部表情动作。本发明能够使生成的3D数字人面部表情动作更加生动形象,更加贴近真实人物表情。
技术关键词
人面部表情
唇部特征
音频特征
音频编码器
联合损失函数
多模态特征
解码器
可视化系统
顶点
文本
跨模态
坐标
粒子群优化算法
序列
模块
深度学习算法
参数
系统为您推荐了相关专利信息
唇部特征
音频特征
多模态特征
注意力机制
多模态注意力
语音控制方法
LED显示屏
文本
音频特征
数据格式
预测特征
音频特征提取
样本
视频特征提取
分类子模型
盾构隧道
选型系统
深度学习模型
深度神经网络模型
格式化模块