摘要
本申请提供一种数字人语音生成方法、装置、设备、存储介质及程序产品。该方法包括:获取目标数字人的目标面部图像;将所述目标面部图像输入至第一阶段模型进行所述目标面部图像的特征编码提取,获得目标面部编码特征;获取与目标文本内容对应的目标音素数据,将所述目标音素数据和所述目标面部编码特征输入至第二阶段模型进行融合解码,获得目标音频数据;响应于用户的试听请求,播放所述目标音频数据。本申请的方案无需为每个数字人进行录音,提高数字人生成的实时性。
技术关键词
编码特征
语音生成方法
人面部图像
文本
音频特征
解码
语义特征
处理器
可读存储介质
计算机程序产品
数据编码
生成装置
系统为您推荐了相关专利信息
钛合金锻件
性能提升方法
分布特征
网络
钛合金材料
合规性检测方法
综合语义
BiLSTM模型
多模态特征
文本