摘要
本发明公开了一种基于多特征建模和粒度感知的情感语音转换方法,包括:预训练阶段、微调阶段和转换阶段,其中预训练阶段和微调阶段用于有效实现情感语音语言内容和情感韵律的充分解纠缠,转换阶段则利用训练好的模型分别提取源情感语音的语言内容和目标情感语音的情感韵律以完成测试语料情感状态的转换。为了进一步地提高转换情感语音的情感饱和度,实现高表现力的情感转换效果,本发明还提出了多韵律特征建模和粒度感知的改进方法,分别从韵律特征的多样性和粒度感知性方面来优化韵律空间,从而能够挖掘出更多的韵律信息,有效提升了转换情感语音的情感饱和度。
技术关键词
情感语音转换方法
频谱特征
声学特征
韵律特征
连续小波变换分析
文本编码器
上下文特征
情感分类器
包络
重构
子模块
模型预训练
输入解码器
序列
阶段
语句