摘要
本发明公开了一种基于潜空间特征融合的语音驱动数字人口型生成方法,属于人工智能与图像合成技术领域;主要提高语音驱动数字人口型生成图像的质量和时序连贯性;本发明的方案为利用语音音频和视频图像分别进行模态编码后,在图像编码器构建的潜空间中通过语音特征引导图像重建过程,生成与语音特征一致的口型变化图像帧序列;实现了从用户语音输入到数字人响应的完整流程,增强了数字人在人机交互过程中的智能化表达能力,从而实现更自然、更智能的数字人语音表达。
技术关键词
语音特征
跨模态融合特征
生成方法
图像解码器
编码模块
音频
图像融合方法
视频
卷积模块
交叉注意力机制
人脸检测算法
矩阵
图像编码器
生成工具
系统为您推荐了相关专利信息
文书生成方法
案件数据
案例库
模板
法律知识图谱
代码库
计算机执行指令
代码生成方法
客户端
代码生成装置
会议纪要生成方法
生成会议纪要
语音识别文本
计算机设备
摘要