基于潜空间特征融合的语音驱动数字人口型生成方法

正文

推荐专利

申请号：CN202511365915

申请日期：2025-09-24

公开号：CN120876687B

公开日期：2025-12-16

类型：发明专利

摘要

本发明公开了一种基于潜空间特征融合的语音驱动数字人口型生成方法，属于人工智能与图像合成技术领域；主要提高语音驱动数字人口型生成图像的质量和时序连贯性；本发明的方案为利用语音音频和视频图像分别进行模态编码后，在图像编码器构建的潜空间中通过语音特征引导图像重建过程，生成与语音特征一致的口型变化图像帧序列；实现了从用户语音输入到数字人响应的完整流程，增强了数字人在人机交互过程中的智能化表达能力，从而实现更自然、更智能的数字人语音表达。

技术关键词

语音特征跨模态融合特征生成方法图像解码器编码模块音频图像融合方法视频卷积模块交叉注意力机制人脸检测算法矩阵图像编码器生成工具

系统为您推荐了相关专利信息

一种基于智慧执法的自动化文书生成方法

文书生成方法案件数据案例库模板法律知识图谱

基于智能体的代码生成方法、装置、电子设备及存储介质

代码库计算机执行指令代码生成方法客户端代码生成装置

掌静脉图像生成方法、装置、存储介质及电子设备

掌静脉图像噪声图像身份样本模拟真实场景

一种会议纪要生成方法、装置、计算机设备及存储介质

会议纪要生成方法生成会议纪要语音识别文本计算机设备摘要

缺陷图像扩散生成方法、装置、设备及存储介质

缺陷尺寸噪声图像扩散生成方法噪声参数物理

基于潜空间特征融合的语音驱动数字人口型生成方法

站点导航

APP 下载