基于音频驱动的3D数字人面部表情合成方法及可视化系统

正文

推荐专利

申请号：CN202510267116

申请日期：2025-03-07

公开号：CN120355822A

公开日期：2025-07-22

类型：发明专利

摘要

本发明公开了一种基于音频驱动的3D数字人面部表情合成方法及可视化系统，所述方法包括：获取数据集；将数据集中的原始音频输入模型中的音频编码器，提取音频特征；将音频特征输入模型中的基于KAN的解码器，生成3D数字人面部表情动作；将3D数字人面部表情动作输入模型中的图编码器，提取唇部特征；通过构建融合音频特征、3D面部表情参数与唇部特征的联合损失函数，实现多模态特征的协同优化与模型训练；将待测试的原始音频输入训练好的模型，依次经过音频编码器和KAN解码器，生成对应的3D数字人面部表情动作。本发明能够使生成的3D数字人面部表情动作更加生动形象，更加贴近真实人物表情。

技术关键词

人面部表情唇部特征音频特征音频编码器联合损失函数多模态特征解码器可视化系统顶点文本跨模态坐标粒子群优化算法序列模块深度学习算法参数

系统为您推荐了相关专利信息

一种基于多模态注意力融合与Transformer模型的唇语识别方法

唇部特征音频特征多模态特征注意力机制多模态注意力

一种LED显示屏的语音控制方法及装置

语音控制方法 LED显示屏文本音频特征数据格式

基于视频的异常行为检测方法和装置、设备及存储介质

预测特征音频特征提取样本视频特征提取分类子模型

基于深度学习的盾构隧道地质适应性分析与选型系统及方法

盾构隧道选型系统深度学习模型深度神经网络模型格式化模块

一种基于图知识大模型的科研成果转化方法

转化方法编码向量多头注意力机制数据解析器

基于音频驱动的3D数字人面部表情合成方法及可视化系统

站点导航

APP 下载