一种基于VITS的韵律可控语音合成方法及相关装置

正文

推荐专利

申请号：CN202510918273

申请日期：2025-07-03

公开号：CN120412544B

公开日期：2025-09-12

类型：发明专利

摘要

本发明提供了一种基于VITS的韵律可控语音合成方法及相关装置，涉及语音合成技术领域。通过从输入文本中提取韵律特征信息；对输入文本进行语义编码，生成文本上下文特征表示；构建韵律控制器，并对所述韵律特征进行独立建模生成预测结果；将所述文本上下文特征表示与所述预测结果进行融合以生成韵律控制嵌入；基于VITS模型，结合所述韵律控制嵌入和说话人嵌入向量，生成多说话人语音频谱；通过解码器将所述多说话人语音频谱转换为时域语音信号；通过调整韵律特征参数，实现对合成语音的持续时长、基音周期、能量、停顿和节奏的独立控制，以提高生成的语音信号的主观质量。

技术关键词

上下文特征语音韵律特征参数双向长短期记忆网络周期控制器连续小波变换输入解码器短语结构文本编码器重构误差模块发音计算机设备语义可读存储介质

系统为您推荐了相关专利信息

一种通信方法、装置、电子设备、芯片及介质

功率值信号特征载波周期通信方法

一种虚拟AI直播交互系统及直播交互方法

交互系统直播交互方法文本姿态特征语音特征

基于大数据的跨境电商广告管理系统

广告管理系统广告投放模块大数据电商系统分析模块

一种复杂交通环境下动静态诱导信息结合的交通流管理方法

管理方法数据立方体动态实时数据周期性流量模型交通流管理系统

一种片上超表面、基于片上超表面的多维复用全息方法

复用全息纳米全息图像光波导波长

一种基于VITS的韵律可控语音合成方法及相关装置

站点导航

APP 下载