基于实时音频驱动的数字人头像生成方法

正文

推荐专利

基于实时音频驱动的数字人头像生成方法

申请号：CN202411061800

申请日期：2024-08-05

公开号：CN119006663B

公开日期：2025-05-27

类型：发明专利

摘要

本发明公开了一种基于实时音频驱动的数字人头像生成方法，包括：引入了一个可学习的嵌入代码来实现对3DGS的间接表征完成头像渲染模型训练，根据人脸关键特征和音频编码特征进行损失函数计算完成音频特征提取模型训练，通过实时音频编码特征和人脸关键特征对齐来实现音频对建模动态场景的控制，最终通过Splatting完成说话头的渲染，进而实现语音驱动的说话头生成。本发明引入了一个可训练的嵌入标签作为位置条件，使用动态高斯函数和音频输入驱动说话头进行建模，实现了数字人头像的动态场景渲染，且渲染效率高。

技术关键词

音频特征提取音频编码生成方法动作控制器驱动信号面部表情特征姿态特征动态场景注意力机制阶段生成头像人脸语义编码向量编码器数据

基于实时音频驱动的数字人头像生成方法

站点导航

APP 下载