基于ByT5的语音合成方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202411506145

申请日期：2024-10-25

公开号：CN119446116B

公开日期：2025-11-18

类型：发明专利

摘要

本申请属于语音合成技术领域，公开了一种基于ByT5的语音合成方法、装置、设备及存储介质，方法包括步骤：获取输入文本的比特序列，利用ByT5模型将比特序列转换成文本特征向量；获取词性嵌入向量、句法结构嵌入向量；将文本特征向量、词性嵌入向量、句法结构嵌入向量求和后依次输入到生成对抗网络语音模型的全连接层、激活函数进行特征融合，获取文本融合特征；利用生成对抗网络语音模型的解码器、声码器依次获取目标语种Me l谱、目标语种波形。解决了token‑based模型受词典限制的问题，能够直接将原始文本转换到多语种统一的比特表征上，利用ByT5模型框架强大的通用处理能力的基础上融合了句法和结构的信息，能够有效提升合成语音质量。

技术关键词

生成对抗网络句法结构文本特征向量语音融合特征标注工具词性信息计算机可读指令解码器注意力机制序列可读存储介质波形编码字符非线性语义特征声码器模块

系统为您推荐了相关专利信息

基于人体解剖学的掌静脉识别方法、装置、设备及介质

掌静脉图像静脉识别方法人体解剖学血流关键点

数据处理的方法、装置及电子设备

RTP数据包语音识别引擎非易失性存储介质媒体音视频

一种风力发电机组叶片内部巡检机器人

风力发电机组叶片监测传感装置机器人本体智能巡检机器人远程监控站

一种基于图像处理的液冷冷板缺陷检测方法及系统

液冷冷板缺陷检测方法模型预训练图像处理缺陷规则

一种语音转换方法、装置、设备及其存储介质

声学特征语音转换方法文本计算机可读指令发音

基于ByT5的语音合成方法、装置、设备及存储介质

站点导航

APP 下载