一种基于GPT-SoVITS模型的音色克隆转换方法

正文

推荐专利

申请号：CN202411475368

申请日期：2024-10-22

公开号：CN119360867A

公开日期：2025-01-24

类型：发明专利

摘要

本发明公开一种基于GPT‑SoVITS模型的音色克隆转换方法，包括以下步骤：S1：数据准备；准备同音色的语音数据，包括原始语音和对应的文本内容；这些语音数据用于训练GPT‑SoVITS模型；S2：数据处理；将语音数据文件进行切片处理，并且对语音切片文件进行文本的数据标注；S3：模型训练；使用准备好的数据训练GPT‑SoVITS模型；在训练过程中，GPT‑SoVITS模型学习如何将文本内容转换为对应音色特征的语音；S4：语音生成；在GPT‑SoVITS模型训练完成后，通过输入任意文本或语音内容，GPT‑SoVITS模型根据文本或语音内容生成对应的语音。本发明通过更加少量的语音素材库，来克隆生成更加高质量、更加逼真的语音。

技术关键词

转换方法语音文本音色特征语义声学特征声码器序列注意力机制编码器模块数据切片音频编码特征信息编码编码模块波形

一种基于GPT-SoVITS模型的音色克隆转换方法

站点导航

APP 下载