生成语音包的方法、语音播报方法及对应装置

AITNT
正文
推荐专利
生成语音包的方法、语音播报方法及对应装置
申请号:CN202511101232
申请日期:2025-08-07
公开号:CN120612919A
公开日期:2025-09-09
类型:发明专利
摘要
本申请实施例公开了一种生成语音包的方法、语音播报方法及对应装置。主要技术方案包括:获取目标说话人的至少一条语音;基于所述至少一条语音的声学特征,生成多条增广语音;利用所述多条增广语音,在第一语音合成模型的基础上对第二语音合成模型进行蒸馏训练,得到蒸馏训练后的第二语音合成模型,所述第二语音合成模型的参数规模小于所述第一语音合成模型的参数规模;基于所述蒸馏训练后的第二语音合成模型,确定所述目标说话人对应的语音包。通过本申请,仅需要数量很少的目标说话人语音,甚至一条语音,即可生成语音包,大大降低了语音数据的采集门槛;并且在保证模型效果的基础上,提高了语音包的生成效率。
技术关键词
声学特征 语音播报方法 文本 蒸馏 语义特征 生成语音包 语音播报装置 规模 参数 解码器 计算机程序产品 基础 发音 客户端 门槛 数据 模块
系统为您推荐了相关专利信息
1
基于深度学习的急性腹痛病因鉴别诊断系统
鉴别诊断系统 医学知识图谱 疾病 数据更新 医疗人工智能技术
2
模型训练方法、车辆控制方法、装置、车辆、介质及产品
车辆控制指令 文本 模型训练方法 车辆控制方法 处理单元
3
基于深度学习的中文盲文文本智能转换系统
智能转换系统 Inception模型 图像处理模块 大语言模型 中文文本
4
一种引信芯片通信方法和通信系统
检测供电电压 文本识别模型 通信方法 误码率 判决阈值
5
多通道多任务模型的生成方法及装置
长短期记忆网络 深度学习网络 多通道 数据 生成方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号