摘要
本发明涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于残差量化的语音生成方法、装置、设备及介质,包括:获取待生成语音的目标文本;将目标文本输入到文本风格预测器中,对目标文本进行文本编码与风格预测处理,获得文本特征与风格向量;对风格向量进行残差向量量化处理,将风格向量压缩为风格离散码;对风格离散码进行解码处理,将风格解码结果和文本特征输入到语音生成模型中进行联合语音生成预测,生成风格语音特征;对风格语音特征进行解码处理,生成目标文本的风格语音。通过以目标文本控制合成语音的风格,提高风格控制的灵活性,并通过残差向量量化处理捕捉更加精细的风格信息,提高语音风格的合成效果。
技术关键词
风格
语音生成方法
语音生成模型
语音特征
非易失性计算机可读存储介质
解码
生成语音
计算机可执行指令
文本编码器
码字
样本
分类器
融合特征
量化器
处理器
级联
人工智能技术
系统为您推荐了相关专利信息
人工智能驱动
智能写作
模块运行时间
风格
数据采集模块
答案
问答模型训练方法
指标
样本
非易失性计算机可读存储介质
图像转换方法
生成器网络
样本
三元组损失函数
多视觉