基于多模态融合与一致性约束的数字人唇形驱动方法

正文

推荐专利

申请号：CN202510654476

申请日期：2025-05-21

公开号：CN120656218A

公开日期：2025-09-16

类型：发明专利

摘要

本发明公开了基于多模态融合与一致性约束的数字人唇形驱动方法，属于数字人生成领域，包括以下步骤：S1、以参考人脸图像为输入构建多模态特征提取与表示框架，并基于构建的多模态特征提取与表示框架生成个性化人脸特征表示；S2、利用QKV一致性约束驱动个性化人脸特征表示和语音特征进行动态耦合，生成语音驱动下的唇形动作；S3、利用离散编码对参考视频编码得到离散特征，并基于Lipschitz连续性约束机制限制编码空间的变化范围，优化唇形动作。采用上述基于多模态融合与一致性约束的数字人唇形驱动方法，在语音驱动一致性、局部细节还原以及整体生成质量上实现全面提升，显著改善了生成唇形动作的微观动态表现和细节保真度。

技术关键词

参数化特征驱动方法人脸特征多模态语音特征离散特征高频特征键特征视频编码连续性查询特征生成语音动态个性化特征编码器表达式图像语义

系统为您推荐了相关专利信息

一种直播字幕生成方法及相关装置

音频分块字幕生成方法语音活动检测离线语音识别模型文本

一种人脸检测方法、人脸识别方法、行为识别方法及系统

人脸检测方法人脸识别方法轻量级人脸检测人脸特征提取空洞卷积结构

融合图像识别、大模型和PRS的疾病预测方法及系统

疾病预测方法大语言模型芯片位点样本

一种基于情感识别的数字化互动方法及系统

多模态情感识别模型超参数互动方法训练深度学习模型

一种用于航道巡检的无人机水深监测方法

地面控制终端无人机声呐传感器巡检路径规划重构误差

基于多模态融合与一致性约束的数字人唇形驱动方法

站点导航

APP 下载