语音生成框架的训练方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202411659432

申请日期：2024-11-19

公开号：CN119479610A

公开日期：2025-02-18

类型：发明专利

摘要

本申请提供一种语音生成框架的训练方法、装置、设备及存储介质。该框架包括文本到声学令牌的大语言模型、流模型、声码模型，训练方法，包括：以第一语音数据、第二语音数据为训练数据，分别对该大语言模型、流模型、声码模型进行训练；其中，第一语音数据包括第一音频及音频对应的文本、第一音频对应的文本所对应的语音表征；第二语音数据包括不同副语言信息标注下的第二音频及音频对应的文本、第二音频对应的文本所对应的语音表征；以第三语音数据为训练数据，对流模型、该大语言模型中的文本嵌入模块进行训练，得到训练好的语音生成框架；第三语音数据包括目标说话人的第三音频及音频对应的文本、第三音频对应的文本所对应的语音表征。

技术关键词

生成框架令牌音频计算机执行指令大语言模型文本编码器声纹模型数据编码器模块训练装置编码模块可读存储介质生成语音解码器阶段处理器通信存储器

系统为您推荐了相关专利信息

安卓智能体超越行为克隆的策略学习方法和系统

策略学习方法安卓智能基座离线强化学习方法

基于大语言模型的多智能体物料齐套管理系统及方法

大语言模型管理系统文本纠错机制状态监控模块

一种缓解多模态大模型幻觉的训练方法、装置

多模态图像标记注意力索引

一种基于多模态大模型的图表问答方法

图表文本多模态关键词问答方法

用于对音频数据进行编码的方法和系统

环绕声格式驱动信号对象解码器通道

语音生成框架的训练方法、装置、设备及存储介质

站点导航

APP 下载