语音合成方法和设备

正文

推荐专利

语音合成方法和设备

申请号：CN202411467068

申请日期：2024-10-21

公开号：CN119517002A

公开日期：2025-02-25

类型：发明专利

摘要

本公开的各实施例的目的是提供一种语音合成方法、装置、设备、计算机程序产品和计算机程序存储介质。其中，语音合成系统根据输入文本，获取其对应的离散语义特征；将所述离散语义特征与所述输入文本的音频特征映射到同一特征空间，以将两者对齐；从对齐后的特征中提取所述输入文本对应的发音和韵律特征；将所述发音和韵律特征与参考音色特征转换为梅尔谱图特征；将所述梅尔谱图特征转换为输出语音。本公开的各实施例为了能实现高还原度的语音合成方案，选择与音色无关的中间声学特征来解耦音色学习和发音与韵律学习，通过领域迁移学习的手段来对更多复杂场景但高置信度的低采样率数据用于语音合成训练。

技术关键词

韵律特征音色特征语义特征计算机程序存储介质音频特征发音计算机程序指令文本采样率语音计算机可执行指令计算机设备零样本学习方法计算机程序产品数据声学特征声码器存储器处理器

系统为您推荐了相关专利信息

一种基于多模态的安防预警方法及系统

视频特征数据音频特征数据安防预警方法瓶颈结构安防预警系统

一种基于因果推理与跨模态匹配的舞蹈服饰道具检索方法

舞蹈服饰检索方法服饰道具文本注意力

基于数据码头部识别的音乐信息分类方法及系统

头部特征音乐语义特征多维特征向量节点

元素指纹库的构建方法、装置、电子设备及存储介质

元素页面融合特征指纹前端开发技术

基于多模态情感语义自适应融合的图像美学质量评价方法

美学特征语义特征视觉特征评价方法情感特征

语音合成方法和设备

站点导航

APP 下载