基于实时音频驱动的数字人头像生成方法

AITNT
正文
推荐专利
基于实时音频驱动的数字人头像生成方法
申请号:CN202411061800
申请日期:2024-08-05
公开号:CN119006663B
公开日期:2025-05-27
类型:发明专利
摘要
本发明公开了一种基于实时音频驱动的数字人头像生成方法,包括:引入了一个可学习的嵌入代码来实现对3DGS的间接表征完成头像渲染模型训练,根据人脸关键特征和音频编码特征进行损失函数计算完成音频特征提取模型训练,通过实时音频编码特征和人脸关键特征对齐来实现音频对建模动态场景的控制,最终通过Splatting完成说话头的渲染,进而实现语音驱动的说话头生成。本发明引入了一个可训练的嵌入标签作为位置条件,使用动态高斯函数和音频输入驱动说话头进行建模,实现了数字人头像的动态场景渲染,且渲染效率高。
技术关键词
音频特征提取 音频编码 生成方法 动作控制器 驱动信号 面部表情特征 姿态特征 动态场景 注意力机制 阶段 生成头像 人脸语义 编码向量 编码器 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号