一种多说话人语音生成模型的训练方法及多说话人语音合成方法

AITNT
正文
推荐专利
一种多说话人语音生成模型的训练方法及多说话人语音合成方法
申请号:CN202510326008
申请日期:2025-03-19
公开号:CN120108379A
公开日期:2025-06-06
类型:发明专利
摘要
本申请提供了一种多说话人语音生成模型的训练方法及多说话人语音合成方法。一方面,可利用大型语言模型构建多说话人语音生成模型,并利用说话人嵌入模块学习说话人的音色特征和/或韵律特征,使得多说话人语音生成模型能够精确建模说话人语音与文本之间的关系,从而可提升语音生成的自然度和真实性,进而能提高合成语音质量。另一方面,在进行模型训练的过程中,本申请可冻结多说话人语音生成模型的核心权重,并采用LORA算法对说话人嵌入模块进行微调。如此,既能有效提升微调效率,又能保留多说话人语音生成模型的泛化能力,使得微调后的多说话人语音生成模型能够在多说话人场景下具备更优秀的表现,合成更为自然、真实的语音。
技术关键词
语音生成模型 计算机可读指令 韵律特征 音色特征 文本 数据获取模块 处理器 训练装置 计算机设备 算法 存储器 核心 场景 关系
系统为您推荐了相关专利信息
1
信息处理方法、装置、计算机设备、可读存储介质和程序产品
文本特征向量 图像特征向量 信息处理方法 信息处理模型 标签
2
一种科技创新项目数据管理方法、系统及介质
项目数据管理方法 模版 科技创新 关键字 项目数据管理系统
3
一种快速寻找并记录商品信息和保质期的方法
智能匹配算法 光学字符识别技术 二维码扫描技术 识别商品信息 条形码
4
基于领域知识图谱的问答交互方法及系统
问答交互方法 实体 知识图谱框架 查询策略 关键词
5
一种文档检索方法及相关设备
文本 样本 编码器 文档检索方法 答案
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号