摘要
本发明提供了一种基于VITS的韵律可控语音合成方法及相关装置,涉及语音合成技术领域。通过从输入文本中提取韵律特征信息;对输入文本进行语义编码,生成文本上下文特征表示;构建韵律控制器,并对所述韵律特征进行独立建模生成预测结果;将所述文本上下文特征表示与所述预测结果进行融合以生成韵律控制嵌入;基于VITS模型,结合所述韵律控制嵌入和说话人嵌入向量,生成多说话人语音频谱;通过解码器将所述多说话人语音频谱转换为时域语音信号;通过调整韵律特征参数,实现对合成语音的持续时长、基音周期、能量、停顿和节奏的独立控制,以提高生成的语音信号的主观质量。
技术关键词
上下文特征
语音
韵律特征参数
双向长短期记忆网络
周期
控制器
连续小波变换
输入解码器
短语结构
文本编码器
重构误差
模块
发音
计算机设备
语义
可读存储介质
系统为您推荐了相关专利信息
清洗机器人
光伏组件发电效率
电致发光测试
周期
清扫机器人
催收管理方法
分配工作量
语音识别装置
管理系统
案例库
农业大棚
驾驶舱
移动巡检装置
监测方法
作物生长周期模型