基于自回归式大语言模型的零样本语音合成方法及装置

AITNT
正文
推荐专利
基于自回归式大语言模型的零样本语音合成方法及装置
申请号:CN202411563903
申请日期:2024-11-05
公开号:CN119380696A
公开日期:2025-01-28
类型:发明专利
摘要
本申请提供了一种基于自回归式大语言模型的零样本语音合成方法及装置,该方法包括:将参考音频的音频编码特征、参考文本的文本编码特征、目标文本的目标文本编码特征输入预先训练好的大语言模型中,得到大语言模型输出的目标序列;将目标序列输入预先训练好的扩散模型中,得到扩散模型输出的目标序列对应的目标梅尔谱;将目标梅尔谱输入预先训练好的声码器中,得到声码器输出的目标梅尔谱对应的目标音频,并将目标音频确定为参考音频和目标文本对应的语音合成结果。这样,使得用户只需在语音合成阶段添加目标发音对象的少量参考音频即可,无需使用目标发音对象的语音数据对原有的语音合成模型进行重复训练,有效地提高了零样本语音合成能力。
技术关键词
编码特征 样本 音频特征 大语言模型 语音 序列 音频匹配 文本编码器 语义特征 声码器 音频编码器 机器可读指令 矢量量化 数据 处理器 可读存储介质 注意力
系统为您推荐了相关专利信息
1
基于对抗训练的领域自适应耳鸣分类方法及分类系统
分类方法 特征提取器 前馈神经网络 分类系统 通用特征
2
变化语义信息增强的多时相遥感图像描述生成方法及系统
图像组合 生成方法 图像编码 遥感图像特征 融合特征
3
基于CT检查自动化测量体质成分的KOA风险预测方法
卷积神经网络深度学习模型 风险预测方法 风险预测模型 图像增强 CT数据集
4
一种载波通信系统功率频段调整方法及装置
载波通信系统 频段 噪声特征 噪声数据 噪声强度
5
基于多交互空间网络推荐召回方法、设备、介质及产品
推荐召回方法 数据 网络 节点 发送消息
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号