摘要
本发明公开了基于多模态融合与一致性约束的数字人唇形驱动方法,属于数字人生成领域,包括以下步骤:S1、以参考人脸图像为输入构建多模态特征提取与表示框架,并基于构建的多模态特征提取与表示框架生成个性化人脸特征表示;S2、利用QKV一致性约束驱动个性化人脸特征表示和语音特征进行动态耦合,生成语音驱动下的唇形动作;S3、利用离散编码对参考视频编码得到离散特征,并基于Lipschitz连续性约束机制限制编码空间的变化范围,优化唇形动作。采用上述基于多模态融合与一致性约束的数字人唇形驱动方法,在语音驱动一致性、局部细节还原以及整体生成质量上实现全面提升,显著改善了生成唇形动作的微观动态表现和细节保真度。
技术关键词
参数化特征
驱动方法
人脸特征
多模态
语音特征
离散特征
高频特征
键特征
视频编码
连续性
查询特征
生成语音
动态
个性化特征
编码器
表达式
图像
语义
系统为您推荐了相关专利信息
音频分块
字幕生成方法
语音活动检测
离线语音识别模型
文本
人脸检测方法
人脸识别方法
轻量级人脸检测
人脸特征提取
空洞卷积结构
多模态
情感识别模型
超参数
互动方法
训练深度学习模型
地面控制终端
无人机
声呐传感器
巡检路径规划
重构误差