摘要
本申请实施例公开了一种生成语音包的方法、语音播报方法及对应装置。主要技术方案包括:获取目标说话人的至少一条语音;基于所述至少一条语音的声学特征,生成多条增广语音;利用所述多条增广语音,在第一语音合成模型的基础上对第二语音合成模型进行蒸馏训练,得到蒸馏训练后的第二语音合成模型,所述第二语音合成模型的参数规模小于所述第一语音合成模型的参数规模;基于所述蒸馏训练后的第二语音合成模型,确定所述目标说话人对应的语音包。通过本申请,仅需要数量很少的目标说话人语音,甚至一条语音,即可生成语音包,大大降低了语音数据的采集门槛;并且在保证模型效果的基础上,提高了语音包的生成效率。
技术关键词
声学特征
语音播报方法
文本
蒸馏
语义特征
生成语音包
语音播报装置
规模
参数
解码器
计算机程序产品
基础
发音
客户端
门槛
数据
模块
系统为您推荐了相关专利信息
鉴别诊断系统
医学知识图谱
疾病
数据更新
医疗人工智能技术
车辆控制指令
文本
模型训练方法
车辆控制方法
处理单元
智能转换系统
Inception模型
图像处理模块
大语言模型
中文文本
检测供电电压
文本识别模型
通信方法
误码率
判决阈值
长短期记忆网络
深度学习网络
多通道
数据
生成方法