基于门控注意力机制的语音合成方法、装置、设备及介质

正文

推荐专利

申请号：CN202411485787

申请日期：2024-10-23

公开号：CN119314463B

公开日期：2025-12-02

类型：发明专利

摘要

本发明涉及人工智能技术领域和金融科技领域，公开了一种基于门控注意力机制的语音合成方法，通过获取文本数据和语音数据，文本数据通过文本编码器转换为文本符号序列，语音数据通过基于自监督学习模型训练的语音编码器提取语音特征，并将其量化为离散的语音符号序列；接着，文本符号序列与语音符号序列分别组织为文本序列和语音序列；通过初步对齐处理建立文本符号与语音符号的对应关系，门控注意力机制动态调整文本符号与语音符号之间的匹配程度，最后通过解码器生成最终的语音信号。本发明通通过自监督学习模型训练的语音编码器有效提升了语音特征的提取能力，尤其在缺少大量标注数据的场景中仍能从未标注数据中学习到有效的特征表示。

技术关键词

符号注意力机制语音编码器序列文本编码器语音特征监督学习模型输入解码器高维特征向量数据关系梅尔频率倒谱系数动态时间规整编码模块组织计算机设备

系统为您推荐了相关专利信息

一种手机使用实时状态的智能监控方法及系统

智能监控方法手机序列计算机程序指令状态预测技术

基于SAM2、HIPT模型的细胞核免疫组化图像分割方法

图像分割方法多模态特征联合损失函数掩膜多模态信息

基于纠删码的日志提交和数据更新方法、设备及介质

数据更新方法节点增量更新服务器集群生成日志

一种考虑洪量分布特征的水文预报目标函数构建方法

分布特征流域水文模型许可数字高程数据土地利用数据

基于多模态数据融合的呼吸节律推荐方法及相关装置

多模态数据融合心率推荐方法功率值策略梯度强化学习

基于门控注意力机制的语音合成方法、装置、设备及介质

站点导航

APP 下载