摘要
本申请提供一种语音数据的处理方法、装置、电子设备和可读介质,包括:获取源发音者的源语音数据和目标发音者的发音者信息;对源语音数据进行特征提取,得到包含源语音数据中语音帧属于K个语音单元的后验概率向量;根据语义词典中K个语音单元对应的内容表达和后验概率向量,确定源语音数据中语音帧的内容再表达,语义词典中包含K个语音单元对应的内容表达,内容表达是根据来自至少两个发音者的语音数据中语义表达和后验概率进行统计计算后得到的;根据源语音数据中语音帧的内容再表达和发音者信息进行语音转换,得到目标发音者的目标语音数据。该方法能够减少转换后音频中的音色泄露,提高转换后音频的声音相似性。
技术关键词
发音
词典
语音生成模型
语义
特征提取模型
数据
发言者
后验概率
计算机程序产品
处理器
计算机设备
令牌
电子设备
可读存储介质
特征提取模块
音频解码
指令