基于残差量化的语音生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510347070

申请日期：2025-03-24

公开号：CN120199225A

公开日期：2025-06-24

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于金融科技、医疗健康等业务系统平台中，公开了基于残差量化的语音生成方法、装置、设备及介质，包括：获取待生成语音的目标文本；将目标文本输入到文本风格预测器中，对目标文本进行文本编码与风格预测处理，获得文本特征与风格向量；对风格向量进行残差向量量化处理，将风格向量压缩为风格离散码；对风格离散码进行解码处理，将风格解码结果和文本特征输入到语音生成模型中进行联合语音生成预测，生成风格语音特征；对风格语音特征进行解码处理，生成目标文本的风格语音。通过以目标文本控制合成语音的风格，提高风格控制的灵活性，并通过残差向量量化处理捕捉更加精细的风格信息，提高语音风格的合成效果。

技术关键词

风格语音生成方法语音生成模型语音特征非易失性计算机可读存储介质解码生成语音计算机可执行指令文本编码器码字样本分类器融合特征量化器处理器级联人工智能技术

系统为您推荐了相关专利信息

一种基于人工智能生成内容的文本处理方法及系统

文本处理方法掩码矩阵风格编码向量关键词

一种人工智能驱动的计算机智能写作系统

人工智能驱动智能写作模块运行时间风格数据采集模块

问答模型训练方法、装置、电子设备及存储介质

答案问答模型训练方法指标样本非易失性计算机可读存储介质

一种基于对比学习分解多视觉任务的图像转换方法

图像转换方法生成器网络样本三元组损失函数多视觉

利用文本提示与图像生成技术进行数据增强的方法

图像生成技术文本噪声图像数据计算机视觉

基于残差量化的语音生成方法、装置、设备及介质

站点导航

APP 下载