摘要
本发明公开了一种基于实时音频驱动的数字人头像生成方法,包括:引入了一个可学习的嵌入代码来实现对3DGS的间接表征完成头像渲染模型训练,根据人脸关键特征和音频编码特征进行损失函数计算完成音频特征提取模型训练,通过实时音频编码特征和人脸关键特征对齐来实现音频对建模动态场景的控制,最终通过Splatting完成说话头的渲染,进而实现语音驱动的说话头生成。本发明引入了一个可训练的嵌入标签作为位置条件,使用动态高斯函数和音频输入驱动说话头进行建模,实现了数字人头像的动态场景渲染,且渲染效率高。
技术关键词
音频特征提取
音频编码
生成方法
动作控制器
驱动信号
面部表情特征
姿态特征
动态场景
注意力机制
阶段
生成头像
人脸语义
编码向量
编码器
数据