摘要
本发明涉及人工智能技术领域,可应用于医疗健康及金融技术领域,公开了语音合成方法、装置、计算机设备及存储介质。所述方法包括:获取待处理文本、插值后的噪音、未掩码的语音;将所述待处理文本、插值后的噪音、未掩码的语音输入至合成模型,由所述合成模型通过对待处理文本进行编码,并结合调整后的噪音以及未掩码的语音,学习时间维度上的特征变化,并将将噪音转换为目标语音特征,形成预测结果;输出所述预测结果。通过实施本发明实施例的方法可实现显著提升零样本TTS系统的运行效率和降低部署成本,还在保持音色一致性和内容保真度的同时,增强对齐的稳定性和语音的自然流畅度。
技术关键词
文本编码器
语音特征
解码器
计算机设备
TTS系统
人工智能技术
医疗健康
语义
卷积模块
处理器
学生
存储器
注意力
教师
金融
指数
机制
系统为您推荐了相关专利信息
混合励磁电机
非线性
励磁绕组励磁
指标
磁路磁阻
光刻掩膜
光学邻近校正方法
卷积模块
编码器
版图
语音识别方法
注意力
语音识别网络
解码器
声学特征