摘要
本发明涉及人工智能技术领域,公开了一种语音合成方法、装置、计算机设备及介质,方法包括:基于输入的待合成文本进行编码,得到文本编码向量信息;基于输入的参考音频进行编码,并经预训练的无分类器引导模块中进行引导,获得参考音频嵌入向量信息;通过注意力机制对所述参考音频嵌入向量信息进行注意力计算,且在注意力计算时对权重矩阵进行低秩自适应微调,得到音频嵌入向量信息;对所述文本编码向量信息和所述音频嵌入向量信息进行拼接,生成梅尔频谱图;对所述梅尔频谱图进行音频转换,得到待合成文本对应的合成语音。确保了用目标对象的少量参考音频实现待合成文本的语音合成,同时语音合成过程中有效简化了计算量,提高了合成效率。
技术关键词
风格
编码向量
文本
声码器
编码器
分类器
语音文字识别
计算机设备
多头注意力机制
模块
可读存储介质
矩阵
人工智能技术
音频编码
处理器