摘要
本发明涉及人工智能技术领域和金融科技领域,公开了一种基于门控注意力机制的语音合成方法,通过获取文本数据和语音数据,文本数据通过文本编码器转换为文本符号序列,语音数据通过基于自监督学习模型训练的语音编码器提取语音特征,并将其量化为离散的语音符号序列;接着,文本符号序列与语音符号序列分别组织为文本序列和语音序列;通过初步对齐处理建立文本符号与语音符号的对应关系,门控注意力机制动态调整文本符号与语音符号之间的匹配程度,最后通过解码器生成最终的语音信号。本发明通通过自监督学习模型训练的语音编码器有效提升了语音特征的提取能力,尤其在缺少大量标注数据的场景中仍能从未标注数据中学习到有效的特征表示。
技术关键词
符号
注意力机制
语音编码器
序列
文本编码器
语音特征
监督学习模型
输入解码器
高维特征向量
数据
关系
梅尔频率倒谱系数
动态时间规整
编码模块
组织
计算机设备
系统为您推荐了相关专利信息
智能监控方法
手机
序列
计算机程序指令
状态预测技术
图像分割方法
多模态特征
联合损失函数
掩膜
多模态信息
数据更新方法
节点
增量更新
服务器集群
生成日志
分布特征
流域水文模型
许可
数字高程数据
土地利用数据
多模态数据融合
心率
推荐方法
功率值
策略梯度强化学习