一种基于VITS的韵律可控语音合成方法及相关装置

AITNT
正文
推荐专利
一种基于VITS的韵律可控语音合成方法及相关装置
申请号:CN202510918273
申请日期:2025-07-03
公开号:CN120412544B
公开日期:2025-09-12
类型:发明专利
摘要
本发明提供了一种基于VITS的韵律可控语音合成方法及相关装置,涉及语音合成技术领域。通过从输入文本中提取韵律特征信息;对输入文本进行语义编码,生成文本上下文特征表示;构建韵律控制器,并对所述韵律特征进行独立建模生成预测结果;将所述文本上下文特征表示与所述预测结果进行融合以生成韵律控制嵌入;基于VITS模型,结合所述韵律控制嵌入和说话人嵌入向量,生成多说话人语音频谱;通过解码器将所述多说话人语音频谱转换为时域语音信号;通过调整韵律特征参数,实现对合成语音的持续时长、基音周期、能量、停顿和节奏的独立控制,以提高生成的语音信号的主观质量。
技术关键词
上下文特征 语音 韵律特征参数 双向长短期记忆网络 周期 控制器 连续小波变换 输入解码器 短语结构 文本编码器 重构误差 模块 发音 计算机设备 语义 可读存储介质
系统为您推荐了相关专利信息
1
一种通信方法、装置、电子设备、芯片及介质
功率值 信号特征 载波 周期 通信方法
2
一种虚拟AI直播交互系统及直播交互方法
交互系统 直播交互方法 文本 姿态特征 语音特征
3
基于大数据的跨境电商广告管理系统
广告管理系统 广告投放模块 大数据 电商系统 分析模块
4
一种复杂交通环境下动静态诱导信息结合的交通流管理方法
管理方法 数据立方体 动态实时数据 周期性流量模型 交通流管理系统
5
一种片上超表面、基于片上超表面的多维复用全息方法
复用全息 纳米 全息图像 光波导 波长
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号