摘要
本发明公开一种基于单视频的个性化数字人生成方法,涉及虚拟数字人建模与驱动领域,所述方法针对目标人物的视频和语音数据,通过引入多模态对齐约束的语音驱动同步机制,以及结合语义理解与情感标签的表情生成模型,实现了数字人面部表情与语音内容的高度同步和自然逼真。该方法在模型训练中加入自监督风格一致性约束以确保生成的人物形象风格稳定,并在图像融合阶段增加3D语义掩膜以提高合成面部表情与基准人脸融合的精度与写实效果。本发明仅需单段视频样本即可快速克隆数字人并驱动其以语音合成表情,生成过程高效,所得数字人视频具有优异的真实感和交互性。
技术关键词
语音特征提取
风格
视频
人物面部模型
掩膜
参数
动态语义特征
生成方法
声学特征
人脸表情图像
面部表情特征
人面部表情
三维人脸模型
基准
标签