一种零样本语音克隆方法和装置

正文

推荐专利

一种零样本语音克隆方法和装置

申请号：CN202510203115

申请日期：2025-02-24

公开号：CN120071891A

公开日期：2025-05-30

类型：发明专利

摘要

本申请提供一种零样本语音克隆方法和装置，包括利用文本编码器和说话人编码器中，得到第一声学特征和第二声学特征，利用第二声学特征、第一声学特征、目标Mel谱和训练用参考音频的Mel谱，采用流匹配方法训练细节编码器，最终得到零样本语音克隆模型，将待合成音频的参考音频和待合成音频文本输入零样本语音克隆模型中，最终得到待合成音频。本发明不需要大量的文本和语音配对数据，使用与真实语音声学特征有明确对应关系的特征作为训练集训练模型，提高了生成样本的准确度，并且还考虑了语音合成中的多个关键因素，包括文本内容、说话人特征以及语音的韵律信息，通过先进的神经网络结构和训练策略，实现了高质量的零样本语音合成。

技术关键词

语音声学特征音频样本文本编码器克隆方法韵律特征流匹配方法语音信号提取数据噪声神经网络结构计算机存储介质发音因子处理器可读存储介质

系统为您推荐了相关专利信息

基于仿射算法的内弹道非线性区间不确定性优化方法

仿射算法多项式火药颗粒变量压力

标志物rs3740615及其在预测乳腺癌新辅助化疗不良反应中的应用

标志物预测乳腺癌患者检测乳腺癌位点骨髓抑制药物

基于多模态的智能体协同审核方法及系统

协同审核方法决策视频特征向量图像特征向量梯度算法

一种面向复杂流程工业的多层级递进参数优化方法

参数优化方法分层层级粒子群算法工业

一种基于机器学习的食品安全溯源检测方法及系统

食品安全风险食品安全溯源参数样本机器学习算法

一种零样本语音克隆方法和装置

站点导航

APP 下载