摘要
本申请提供了一种多说话人语音生成模型的训练方法及多说话人语音合成方法。一方面,可利用大型语言模型构建多说话人语音生成模型,并利用说话人嵌入模块学习说话人的音色特征和/或韵律特征,使得多说话人语音生成模型能够精确建模说话人语音与文本之间的关系,从而可提升语音生成的自然度和真实性,进而能提高合成语音质量。另一方面,在进行模型训练的过程中,本申请可冻结多说话人语音生成模型的核心权重,并采用LORA算法对说话人嵌入模块进行微调。如此,既能有效提升微调效率,又能保留多说话人语音生成模型的泛化能力,使得微调后的多说话人语音生成模型能够在多说话人场景下具备更优秀的表现,合成更为自然、真实的语音。
技术关键词
语音生成模型
计算机可读指令
韵律特征
音色特征
文本
数据获取模块
处理器
训练装置
计算机设备
算法
存储器
核心
场景
关系
系统为您推荐了相关专利信息
文本特征向量
图像特征向量
信息处理方法
信息处理模型
标签
项目数据管理方法
模版
科技创新
关键字
项目数据管理系统
智能匹配算法
光学字符识别技术
二维码扫描技术
识别商品信息
条形码
问答交互方法
实体
知识图谱框架
查询策略
关键词