摘要
本发明公开一种基于GPT‑SoVITS模型的音色克隆转换方法,包括以下步骤:S1:数据准备;准备同音色的语音数据,包括原始语音和对应的文本内容;这些语音数据用于训练GPT‑SoVITS模型;S2:数据处理;将语音数据文件进行切片处理,并且对语音切片文件进行文本的数据标注;S3:模型训练;使用准备好的数据训练GPT‑SoVITS模型;在训练过程中,GPT‑SoVITS模型学习如何将文本内容转换为对应音色特征的语音;S4:语音生成;在GPT‑SoVITS模型训练完成后,通过输入任意文本或语音内容,GPT‑SoVITS模型根据文本或语音内容生成对应的语音。本发明通过更加少量的语音素材库,来克隆生成更加高质量、更加逼真的语音。
技术关键词
转换方法
语音
文本
音色特征
语义
声学特征
声码器
序列
注意力机制
编码器模块
数据
切片
音频
编码特征
信息编码
编码模块
波形