摘要
本发明公开了一种语音克隆方法、语音克隆装置,所述语音克隆方法包括:获取提示音频的提示文本,加载语音克隆推理引擎,生成第一克隆音频,对第一克隆音频评分:识别第一克隆音频得到识别文本,通过比对所述识别文本和所述评测文本;根据评分标准对所述第一克隆音频进行评分,进而判断所述第一克隆音频为通过或不通过;如果所述第一克隆音频为通过,则对用户输入的待合成文本热修复,获得修复文本;调用所述语音克隆推理引擎,根据所述提示文本和修复文本,合成第二克隆音频;通过对语音提示音频进行多维度评测来降低幻觉率、漏字率,通过热修复来提升可控性,通过引入缓存加速、模型加速等方法,提升语音克隆的使用体验。
技术关键词
克隆方法
文本
音频
语音识别模块
键值
符号
分词
解码器
编码器