摘要
本发明涉及人工智能技术领域,公开了一种基于层次化情感分布的语音合成方法,通过获取音频数据和文本转录,分割音频为音素、词语和句子级别的语音单元,提取音高、语速和节奏等声学特征,利用预训练模型生成情感分布向量,处理文本转录生成文本嵌入信息,将情感分布向量、文本嵌入信息和声学特征相结合,通过变量转换器生成韵律特征,解码器基于韵律特征生成梅尔频谱图,声码器将梅尔频谱图转换为时域音频信号并输出。本发明通过层次化地分割音频数据为音素、词语和句子级别,并结合声学特征、情感分布向量和文本嵌入信息,利用变量转换器生成韵律特征,从而实现对情感表达的精细控制,显著提高了语音合成的自然度和情感表现力。
技术关键词
声学特征
语音
时域音频信号
韵律特征
文本
情感识别模型
声码器
情感类别
情感特征
词语
解码器
变量
注意力机制
数据
基频轮廓
转换器模块
计算机设备
对齐工具
系统为您推荐了相关专利信息
信息检索方法
节点
大语言模型
元素
信息检索系统
医疗图像分割方法
多模态协同
样本
视觉
无监督学习
视频监控平台
语音对讲方法
标识特征
场景
融合特征
标签生成方法
云端
标签生成系统
子模块
数据同步