数字人语音生成方法、装置、设备、存储介质及程序产品

正文

推荐专利

申请号：CN202410707210

申请日期：2024-06-03

公开号：CN118741175A

公开日期：2024-10-01

类型：发明专利

摘要

本申请提供一种数字人语音生成方法、装置、设备、存储介质及程序产品。该方法包括：获取目标数字人的目标面部图像；将所述目标面部图像输入至第一阶段模型进行所述目标面部图像的特征编码提取，获得目标面部编码特征；获取与目标文本内容对应的目标音素数据，将所述目标音素数据和所述目标面部编码特征输入至第二阶段模型进行融合解码，获得目标音频数据；响应于用户的试听请求，播放所述目标音频数据。本申请的方案无需为每个数字人进行录音，提高数字人生成的实时性。

技术关键词

编码特征语音生成方法人面部图像文本音频特征解码语义特征处理器可读存储介质计算机程序产品数据编码生成装置

系统为您推荐了相关专利信息

基于退火温度的钛合金锻件组织性能提升方法及系统

钛合金锻件性能提升方法分布特征网络钛合金材料

一种基于行业多模态特征数据的智能合规性检测方法

合规性检测方法综合语义 BiLSTM模型多模态特征文本

海报图像的生成方法、装置、设备、介质和产品

海报元素文本噪声图像大语言模型

一种基于关联遗忘学习的半监督长期船舶重识别方法

船舶图像重识别方法注意力机制聚类

基于视频帧的视频多模态大模型越狱攻击方法、系统、设备和介质

多模态视频帧文本对抗性样本

数字人语音生成方法、装置、设备、存储介质及程序产品

站点导航

APP 下载