摘要
本发明涉及语音合成技术领域,可应用于金融科技和医疗健康领域,公开了一种语音合成方法、装置、设备及介质,包括:获取原始语音,并从所述原始语音中提取高维特征得到高维语音特征;将所述高维语言特征输入预训练的矢量量化器进行离散化得到多个离散Token;根据与所述原始语音相对应的文本信息和多个所述离散Token通过TTS生成器生成预测Token序列,其中,所述TTS生成器是采用样本集对大语言模型进行训练和验证得到的;将所述预测Token序列输入语音解码器进行语音合成得到目标语音。提高了合成语音的质量和准确度。
技术关键词
语音特征
矢量量化器
语音解码器
样本
大语言模型
文本
韵律预测
序列
可读存储介质
医疗健康
数据
处理器
计算机设备
存储器
金融
系统为您推荐了相关专利信息
注意力神经网络
编码向量
协方差矩阵
进化策略
跨境电商平台
驱油体系
组合方法
敏感性分析方法
梯度提升树模型
数值模拟技术
逆向预测方法
广义回归神经网络
多输入单输出
遗传算法
样本