语音生成模型的构建方法、装置、电子设备及可读介质

正文

推荐专利

申请号：CN202411910967

申请日期：2024-12-23

公开号：CN119920230B

公开日期：2025-10-28

类型：发明专利

摘要

本发明提供语音生成模型的构建方法、装置、电子设备及可读介质，将预设的训练语音输入预设向量量化器，得到训练语音的训练语义离散特征；训练语义离散特征包含了训练语音的语言风格；获取训练语音对应的训练文本，并利用训练文本以及训练语义离散特征训练预设的自回归语音模型，得到语义离散特征生成模型；获取训练语义离散特征对应的训练梅尔频谱图；利用训练语义离散特征以及训练梅尔频谱图训练预设的最优传输条件流匹配模型，得到梅尔频谱图生成模型；基于梅尔频谱图生成模型和语义离散特征生成模型，构建语音生成模型。实现了通过单一语音生成模型实现多种语言风格的语音或方言语音生成，降低了标注成本，减轻了音频生成中产生的机械感。

技术关键词

离散特征语音生成模型语义文本模型训练模块风格通信接口电子设备处理器路由器存储器音频波形介质频率计算机程序指令

系统为您推荐了相关专利信息

人机交互模型训练方法、装置和计算机设备

消息人机交互系统参数模型训练方法标记

语音文本的关联方法、装置、电子设备及存储介质

语音文本数据双麦克风阵列波束成形算法

一种基于路由算法的工作流处理方法、系统、设备及介质

语义图谱数据基础生成特征向量风险

一种行为算法研判模型系统

数据收集模块特征工程图片数据处理模块文本

一种行业大模型优化方法、装置、设备及存储介质

模型优化方法应用程序编程接口项目图形处理器语义

语音生成模型的构建方法、装置、电子设备及可读介质

站点导航

APP 下载