摘要
本发明提供了一种基于VITS的韵律可控语音合成方法及相关装置,涉及语音合成技术领域。通过从输入文本中提取韵律特征信息;对输入文本进行语义编码,生成文本上下文特征表示;构建韵律控制器,并对所述韵律特征进行独立建模生成预测结果;将所述文本上下文特征表示与所述预测结果进行融合以生成韵律控制嵌入;基于VITS模型,结合所述韵律控制嵌入和说话人嵌入向量,生成多说话人语音频谱;通过解码器将所述多说话人语音频谱转换为时域语音信号;通过调整韵律特征参数,实现对合成语音的持续时长、基音周期、能量、停顿和节奏的独立控制,以提高生成的语音信号的主观质量。
技术关键词
上下文特征
语音
韵律特征参数
双向长短期记忆网络
周期
控制器
连续小波变换
输入解码器
短语结构
文本编码器
重构误差
模块
发音
计算机设备
语义
可读存储介质
系统为您推荐了相关专利信息
广告管理系统
广告投放模块
大数据
电商系统
分析模块
管理方法
数据立方体
动态实时数据
周期性流量模型
交通流管理系统