生成语音包的方法、语音播报方法及对应装置

正文

推荐专利

申请号：CN202511101232

申请日期：2025-08-07

公开号：CN120612919A

公开日期：2025-09-09

类型：发明专利

摘要

本申请实施例公开了一种生成语音包的方法、语音播报方法及对应装置。主要技术方案包括：获取目标说话人的至少一条语音；基于所述至少一条语音的声学特征，生成多条增广语音；利用所述多条增广语音，在第一语音合成模型的基础上对第二语音合成模型进行蒸馏训练，得到蒸馏训练后的第二语音合成模型，所述第二语音合成模型的参数规模小于所述第一语音合成模型的参数规模；基于所述蒸馏训练后的第二语音合成模型，确定所述目标说话人对应的语音包。通过本申请，仅需要数量很少的目标说话人语音，甚至一条语音，即可生成语音包，大大降低了语音数据的采集门槛；并且在保证模型效果的基础上，提高了语音包的生成效率。

技术关键词

声学特征语音播报方法文本蒸馏语义特征生成语音包语音播报装置规模参数解码器计算机程序产品基础发音客户端门槛数据模块

系统为您推荐了相关专利信息

基于深度学习的急性腹痛病因鉴别诊断系统

鉴别诊断系统医学知识图谱疾病数据更新医疗人工智能技术

模型训练方法、车辆控制方法、装置、车辆、介质及产品

车辆控制指令文本模型训练方法车辆控制方法处理单元

基于深度学习的中文盲文文本智能转换系统

智能转换系统 Inception模型图像处理模块大语言模型中文文本

一种引信芯片通信方法和通信系统

检测供电电压文本识别模型通信方法误码率判决阈值

多通道多任务模型的生成方法及装置

长短期记忆网络深度学习网络多通道数据生成方法

生成语音包的方法、语音播报方法及对应装置

站点导航

APP 下载