基于潜空间特征融合的语音驱动数字人口型生成方法

AITNT
正文
推荐专利
基于潜空间特征融合的语音驱动数字人口型生成方法
申请号:CN202511365915
申请日期:2025-09-24
公开号:CN120876687B
公开日期:2025-12-16
类型:发明专利
摘要
本发明公开了一种基于潜空间特征融合的语音驱动数字人口型生成方法,属于人工智能与图像合成技术领域;主要提高语音驱动数字人口型生成图像的质量和时序连贯性;本发明的方案为利用语音音频和视频图像分别进行模态编码后,在图像编码器构建的潜空间中通过语音特征引导图像重建过程,生成与语音特征一致的口型变化图像帧序列;实现了从用户语音输入到数字人响应的完整流程,增强了数字人在人机交互过程中的智能化表达能力,从而实现更自然、更智能的数字人语音表达。
技术关键词
语音特征 跨模态融合特征 生成方法 图像解码器 编码模块 音频 图像融合方法 视频 卷积模块 交叉注意力机制 人脸检测算法 矩阵 图像编码器 生成工具
系统为您推荐了相关专利信息
1
一种基于智慧执法的自动化文书生成方法
文书生成方法 案件数据 案例库 模板 法律知识图谱
2
基于智能体的代码生成方法、装置、电子设备及存储介质
代码库 计算机执行指令 代码生成方法 客户端 代码生成装置
3
掌静脉图像生成方法、装置、存储介质及电子设备
掌静脉图像 噪声图像 身份 样本 模拟真实场景
4
一种会议纪要生成方法、装置、计算机设备及存储介质
会议纪要生成方法 生成会议纪要 语音识别文本 计算机设备 摘要
5
缺陷图像扩散生成方法、装置、设备及存储介质
缺陷尺寸 噪声图像 扩散生成方法 噪声参数 物理
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号