一种多说话人语音生成模型的训练方法及多说话人语音合成方法

正文

推荐专利

申请号：CN202510326008

申请日期：2025-03-19

公开号：CN120108379A

公开日期：2025-06-06

类型：发明专利

摘要

本申请提供了一种多说话人语音生成模型的训练方法及多说话人语音合成方法。一方面，可利用大型语言模型构建多说话人语音生成模型，并利用说话人嵌入模块学习说话人的音色特征和/或韵律特征，使得多说话人语音生成模型能够精确建模说话人语音与文本之间的关系，从而可提升语音生成的自然度和真实性，进而能提高合成语音质量。另一方面，在进行模型训练的过程中，本申请可冻结多说话人语音生成模型的核心权重，并采用LORA算法对说话人嵌入模块进行微调。如此，既能有效提升微调效率，又能保留多说话人语音生成模型的泛化能力，使得微调后的多说话人语音生成模型能够在多说话人场景下具备更优秀的表现，合成更为自然、真实的语音。

技术关键词

语音生成模型计算机可读指令韵律特征音色特征文本数据获取模块处理器训练装置计算机设备算法存储器核心场景关系

系统为您推荐了相关专利信息

信息处理方法、装置、计算机设备、可读存储介质和程序产品

文本特征向量图像特征向量信息处理方法信息处理模型标签

一种科技创新项目数据管理方法、系统及介质

项目数据管理方法模版科技创新关键字项目数据管理系统

一种快速寻找并记录商品信息和保质期的方法

智能匹配算法光学字符识别技术二维码扫描技术识别商品信息条形码

基于领域知识图谱的问答交互方法及系统

问答交互方法实体知识图谱框架查询策略关键词

一种文档检索方法及相关设备

文本样本编码器文档检索方法答案

一种多说话人语音生成模型的训练方法及多说话人语音合成方法

站点导航

APP 下载