摘要
本申请属于语音合成技术领域,公开了一种基于ByT5的语音合成方法、装置、设备及存储介质,方法包括步骤:获取输入文本的比特序列,利用ByT5模型将比特序列转换成文本特征向量;获取词性嵌入向量、句法结构嵌入向量;将文本特征向量、词性嵌入向量、句法结构嵌入向量求和后依次输入到生成对抗网络语音模型的全连接层、激活函数进行特征融合,获取文本融合特征;利用生成对抗网络语音模型的解码器、声码器依次获取目标语种Me l谱、目标语种波形。解决了token‑based模型受词典限制的问题,能够直接将原始文本转换到多语种统一的比特表征上,利用ByT5模型框架强大的通用处理能力的基础上融合了句法和结构的信息,能够有效提升合成语音质量。
技术关键词
生成对抗网络
句法结构
文本特征向量
语音
融合特征
标注工具
词性信息
计算机可读指令
解码器
注意力机制
序列
可读存储介质
波形
编码
字符
非线性
语义特征
声码器
模块
系统为您推荐了相关专利信息
掌静脉图像
静脉识别方法
人体解剖学
血流
关键点
RTP数据包
语音识别引擎
非易失性存储介质
媒体
音视频
风力发电机组叶片
监测传感装置
机器人本体
智能巡检机器人
远程监控站
液冷冷板
缺陷检测方法
模型预训练
图像处理
缺陷规则
声学特征
语音转换方法
文本
计算机可读指令
发音