摘要
本发明公开了一种基于电子人工喉音频输入信号的智能语音合成系统,其特征在于:包括信号处理模块、语音识别模块、语音合成模块和用户界面模块。本发明与现有的技术相比的优点在于:本发明使用STFT将电子喉信号转换为频域特征,同时采用Conformer模型进行语义提取,并且结合FastSpeech2和H i F i‑GAN生成自然语音,改善情感表达和语音质量。
技术关键词
电子人工喉
语音识别模块
智能语音
信号处理模块
电子喉
音频
深度学习技术
自然语音
深度学习模型
情感特征
生成语音
频域特征
文本
人声
语义
界面
序列