基于层次化情感分布的语音合成方法、装置、设备及介质

正文

推荐专利

申请号：CN202411387284

申请日期：2024-09-30

公开号：CN119207372B

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了一种基于层次化情感分布的语音合成方法，通过获取音频数据和文本转录，分割音频为音素、词语和句子级别的语音单元，提取音高、语速和节奏等声学特征，利用预训练模型生成情感分布向量，处理文本转录生成文本嵌入信息，将情感分布向量、文本嵌入信息和声学特征相结合，通过变量转换器生成韵律特征，解码器基于韵律特征生成梅尔频谱图，声码器将梅尔频谱图转换为时域音频信号并输出。本发明通过层次化地分割音频数据为音素、词语和句子级别，并结合声学特征、情感分布向量和文本嵌入信息，利用变量转换器生成韵律特征，从而实现对情感表达的精细控制，显著提高了语音合成的自然度和情感表现力。

技术关键词

声学特征语音时域音频信号韵律特征文本情感识别模型声码器情感类别情感特征词语解码器变量注意力机制数据基频轮廓转换器模块计算机设备对齐工具

系统为您推荐了相关专利信息

一种联合限定检索与知识引导的信息检索方法及系统

信息检索方法节点大语言模型元素信息检索系统

一种基于多模态协同对比增强的通用医疗图像分割方法

医疗图像分割方法多模态协同样本视觉无监督学习

视频监控平台的异步语音对讲方法、装置、设备及介质

视频监控平台语音对讲方法标识特征场景融合特征

一种云端文档的知识智能分类标签生成方法及系统

标签生成方法云端标签生成系统子模块数据同步

用于海量执法音视频数据的多模态检索增强生成系统

知识图谱数据库生成系统音视频多模态关键词

基于层次化情感分布的语音合成方法、装置、设备及介质

站点导航

APP 下载