摘要
本发明公开了基于互信息的强度可控的情感语音合成方法,首先目标语音标注;然后情感强度计算、建模情感表示、强度属性、文本表示,然后将得到的情感嵌入、强度嵌入和文本嵌入送入时长预测器,生成预测的音素时长;最后语谱图解码:利用语谱图解码器将音素时长转换为预测频谱图;情感语音合成。本发明旨在合成与目标情感一致的情感语音,并实现对情感强度的灵活控制,使合成语音能够生动地表达所需的情感。
技术关键词
语谱图
文本编码器
强度
语音特征
情感分类器
解码器
时域特征
注意力
频域特征
门控循环单元
深度神经网络
时间段
样本
标记
多层感知机
系统为您推荐了相关专利信息
数据处理方法
环境光线强度
知识点
答案
人工智能交互技术
语音特征
语音识别模型
语音识别方法
特征提取模块
处理单元
降噪模型
降噪需求
语音特征
说话人识别技术
数据
需求预测方法
钢筋混凝土框架结构
序列
地震
拉丁超立方采样