基于音频驱动的3D数字人面部表情合成方法及可视化系统

AITNT
正文
推荐专利
基于音频驱动的3D数字人面部表情合成方法及可视化系统
申请号:CN202510267116
申请日期:2025-03-07
公开号:CN120355822A
公开日期:2025-07-22
类型:发明专利
摘要
本发明公开了一种基于音频驱动的3D数字人面部表情合成方法及可视化系统,所述方法包括:获取数据集;将数据集中的原始音频输入模型中的音频编码器,提取音频特征;将音频特征输入模型中的基于KAN的解码器,生成3D数字人面部表情动作;将3D数字人面部表情动作输入模型中的图编码器,提取唇部特征;通过构建融合音频特征、3D面部表情参数与唇部特征的联合损失函数,实现多模态特征的协同优化与模型训练;将待测试的原始音频输入训练好的模型,依次经过音频编码器和KAN解码器,生成对应的3D数字人面部表情动作。本发明能够使生成的3D数字人面部表情动作更加生动形象,更加贴近真实人物表情。
技术关键词
人面部表情 唇部特征 音频特征 音频编码器 联合损失函数 多模态特征 解码器 可视化系统 顶点 文本 跨模态 坐标 粒子群优化算法 序列 模块 深度学习算法 参数
系统为您推荐了相关专利信息
1
一种基于多模态注意力融合与Transformer模型的唇语识别方法
唇部特征 音频特征 多模态特征 注意力机制 多模态注意力
2
一种LED显示屏的语音控制方法及装置
语音控制方法 LED显示屏 文本 音频特征 数据格式
3
基于视频的异常行为检测方法和装置、设备及存储介质
预测特征 音频特征提取 样本 视频特征提取 分类子模型
4
基于深度学习的盾构隧道地质适应性分析与选型系统及方法
盾构隧道 选型系统 深度学习模型 深度神经网络模型 格式化模块
5
一种基于图知识大模型的科研成果转化方法
转化方法 编码向量 多头注意力机制 数据 解析器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号