摘要
本发明公开了一种可定制化的语音合成方法、装置及电子设备,方法包括:生成训练文本集、测试文本集、以及训练文本集对应的克隆语音;对所生成的克隆语音进行过滤并获取识别文本,根据真实训练文本对识别文本进行再过滤,得到训练集;使用训练集训练语音合成模型,利用语音合成模型生成测试文本集的语音,统计该语音的错误率及错误音素;生成含有错误音素的增强训练文本集以获得增强训练集,使用增强训练集对语音合成模型进行微调,直到错误率降低至阈值或稳定状态。通过该方法增强了语音合成模型的稳定性,且通过该方法降低了定制化语音合成模型的数据成本,缩短了模型迭代周期,提升了定制化语音合成的准确率,提高用户体验。
技术关键词
语音识别模型
文本
情感识别模型
声纹识别模型
错误率
训练集
大语言模型
模型训练模块
电子设备
发音
存储器
处理器
度量
音频
数据
曲线
周期
系统为您推荐了相关专利信息
事件分析方法
智能决策模型
生物特征数据
多模态数据融合
报告