摘要
本申请提供了一种语音数据处理方法、装置、设备及计算机可读存储介质;方法包括:从N个候选音色各自对应的候选音频数据中,确定目标音色对应的目标音频数据;获取第一音频数据、第一音频数据对应的第一文本,并对第一音频数据和第一文本进行编码处理,得到初始标记序列;当第一文本中包括至少两种语言时,将语言转换标记增加至初始标记序列,得到第一目标标记序列;基于目标音频数据,对第一目标标记序列进行特征转换,得到第一目标标记序列的第一音频特征;对第一音频特征进行语音转换,得到第一文本对应的第二音频数据,第二音频数据的音色为目标音色。通过本申请,能够提高语音数据的音色多样化,并对不同语言的语音数据进行个性化的音色统一。
技术关键词
标记
音频特征
语音数据处理方法
序列
文本
生成对抗网络模型
计算机可执行指令
语音数据处理装置
编码
可读存储介质
波形
电子设备
模块
存储器
处理器