端到端的语音合成方法、装置、设备及介质

AITNT
正文
推荐专利
端到端的语音合成方法、装置、设备及介质
申请号:CN202410841365
申请日期:2024-06-26
公开号:CN118645084A
公开日期:2024-09-13
类型:发明专利
摘要
本发明公开了一种端到端的语音合成方法,该方法包括获取待转换文本以及音频数据,并将待转换文本和音频数据输入到语音合成模型中;语音合成模型包括情感打分器、文本编码器、随机时间预测器、单调对齐搜索和合成解码器;通过情感打分器对音频数据进行情感识别,得到情感强度;通过文本编码器对待转换文本和情感强度进行特征提取,得到文本特征;通过随机时间预测器对文本特征进行持续时间预测,得到音素持续时间分布;通过单调对齐搜索对音素持续时间分布和所述文本特征进行特征对齐,得到对齐特征;通过合成解码器对对齐特征进行语音合成,得到目标语音数据。本发明实现了在语音合成中增加情感强度的表达,使得语音合成的效果更佳。
技术关键词
转换文本 文本编码器 语音 解码器 上采样 音频 打分器 强度 注意力 动态规划算法 数据输入模块 可读存储介质 特征提取模块 处理单元 对齐模块 处理器 编码模块 计算机设备
系统为您推荐了相关专利信息
1
一种基于多尺度特征融合的隐藏物体检测算法
多尺度特征融合 物体检测 粗略 注意力机制 网络
2
基于语音指令匹配技术的机器人拟人化语音工单报警系统
报警系统 文本 指令 列表 TTS系统
3
一种基于Mamba模型的异构遥感图像变化检测系统及方法
光学解码器 池化特征 遥感图像变化检测 编解码器 编码器
4
一种基于鱼眼系统的地基云图分类方法及系统
融合视觉特征 地基云图分类方法 气象 注意力机制 交互特征
5
一种基于动态规划的实体分割方法、装置、设备及介质
语义 实体 分割方法 动态规划算法 对象
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号