摘要
本申请涉及语音合成技术领域,尤其涉及一种面向VQTTS模型的语音合成缺陷修正方法、设备及存储介质,包括获取合成文本,定位合成缺陷位置的文本为缺陷短语T;使用大语言模型生成M个包含缺陷短语T的文本W;利用VQTTS对文本W进行语音合成,若是判断合成语音不存在缺陷,截取片段并添加至集合K中;将(T,K)配对添加至系统数据集中;获取待合成的输入文本W,生成M个长度为K的Oracle向量;若缺陷短语T是输入文本W的子字符串,更新Oracle向量;使用VQTTS和Beam Search算法生成修正后的韵律标签序列;选择最佳离散韵律标签序列并生成语音。本申请能够在不更新模型的前提下修正合成缺陷,解决语音合成缺陷修复的技术问题。
技术关键词
缺陷修正方法
文本
大语言模型
标签
生成语音
序列
声学特征
加载系统
数据
算法
程序
处理器
可读存储介质
存储器
矩阵
电子设备
波形
计算机
参数
系统为您推荐了相关专利信息
注意力
编辑方法
图像获取单元
局部编辑装置
卷积神经网络框架
图像特征向量
文本生成模型
文本生成方法
特征提取模块
输出模块