基于ByT5的语音合成方法、装置、设备及存储介质

AITNT
正文
推荐专利
基于ByT5的语音合成方法、装置、设备及存储介质
申请号:CN202411506145
申请日期:2024-10-25
公开号:CN119446116B
公开日期:2025-11-18
类型:发明专利
摘要
本申请属于语音合成技术领域,公开了一种基于ByT5的语音合成方法、装置、设备及存储介质,方法包括步骤:获取输入文本的比特序列,利用ByT5模型将比特序列转换成文本特征向量;获取词性嵌入向量、句法结构嵌入向量;将文本特征向量、词性嵌入向量、句法结构嵌入向量求和后依次输入到生成对抗网络语音模型的全连接层、激活函数进行特征融合,获取文本融合特征;利用生成对抗网络语音模型的解码器、声码器依次获取目标语种Me l谱、目标语种波形。解决了token‑based模型受词典限制的问题,能够直接将原始文本转换到多语种统一的比特表征上,利用ByT5模型框架强大的通用处理能力的基础上融合了句法和结构的信息,能够有效提升合成语音质量。
技术关键词
生成对抗网络 句法结构 文本特征向量 语音 融合特征 标注工具 词性信息 计算机可读指令 解码器 注意力机制 序列 可读存储介质 波形 编码 字符 非线性 语义特征 声码器 模块
系统为您推荐了相关专利信息
1
基于人体解剖学的掌静脉识别方法、装置、设备及介质
掌静脉图像 静脉识别方法 人体解剖学 血流 关键点
2
数据处理的方法、装置及电子设备
RTP数据包 语音识别引擎 非易失性存储介质 媒体 音视频
3
一种风力发电机组叶片内部巡检机器人
风力发电机组叶片 监测传感装置 机器人本体 智能巡检机器人 远程监控站
4
一种基于图像处理的液冷冷板缺陷检测方法及系统
液冷冷板 缺陷检测方法 模型预训练 图像处理 缺陷规则
5
一种语音转换方法、装置、设备及其存储介质
声学特征 语音转换方法 文本 计算机可读指令 发音
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号