摘要
本申请提供一种语音生成框架的训练方法、装置、设备及存储介质。该框架包括文本到声学令牌的大语言模型、流模型、声码模型,训练方法,包括:以第一语音数据、第二语音数据为训练数据,分别对该大语言模型、流模型、声码模型进行训练;其中,第一语音数据包括第一音频及音频对应的文本、第一音频对应的文本所对应的语音表征;第二语音数据包括不同副语言信息标注下的第二音频及音频对应的文本、第二音频对应的文本所对应的语音表征;以第三语音数据为训练数据,对流模型、该大语言模型中的文本嵌入模块进行训练,得到训练好的语音生成框架;第三语音数据包括目标说话人的第三音频及音频对应的文本、第三音频对应的文本所对应的语音表征。
技术关键词
生成框架
令牌
音频
计算机执行指令
大语言模型
文本编码器
声纹模型
数据
编码器模块
训练装置
编码模块
可读存储介质
生成语音
解码器
阶段
处理器通信
存储器
系统为您推荐了相关专利信息
大语言模型
管理系统
文本
纠错机制
状态监控模块