基于自回归式大语言模型的零样本语音合成方法及装置

正文

推荐专利

申请号：CN202411563903

申请日期：2024-11-05

公开号：CN119380696A

公开日期：2025-01-28

类型：发明专利

摘要

本申请提供了一种基于自回归式大语言模型的零样本语音合成方法及装置，该方法包括：将参考音频的音频编码特征、参考文本的文本编码特征、目标文本的目标文本编码特征输入预先训练好的大语言模型中，得到大语言模型输出的目标序列；将目标序列输入预先训练好的扩散模型中，得到扩散模型输出的目标序列对应的目标梅尔谱；将目标梅尔谱输入预先训练好的声码器中，得到声码器输出的目标梅尔谱对应的目标音频，并将目标音频确定为参考音频和目标文本对应的语音合成结果。这样，使得用户只需在语音合成阶段添加目标发音对象的少量参考音频即可，无需使用目标发音对象的语音数据对原有的语音合成模型进行重复训练，有效地提高了零样本语音合成能力。

技术关键词

编码特征样本音频特征大语言模型语音序列音频匹配文本编码器语义特征声码器音频编码器机器可读指令矢量量化数据处理器可读存储介质注意力

系统为您推荐了相关专利信息

基于对抗训练的领域自适应耳鸣分类方法及分类系统

分类方法特征提取器前馈神经网络分类系统通用特征

变化语义信息增强的多时相遥感图像描述生成方法及系统

图像组合生成方法图像编码遥感图像特征融合特征

基于CT检查自动化测量体质成分的KOA风险预测方法

卷积神经网络深度学习模型风险预测方法风险预测模型图像增强 CT数据集

一种载波通信系统功率频段调整方法及装置

载波通信系统频段噪声特征噪声数据噪声强度

基于多交互空间网络推荐召回方法、设备、介质及产品

推荐召回方法数据网络节点发送消息

基于自回归式大语言模型的零样本语音合成方法及装置

站点导航

APP 下载