摘要
本申请提供一种高效文字转语音的方法及系统。其中,接收用户输入的文本信息,识别并分析所述文本信息中的情感色彩和语气特征;根据所述情感色彩和所述语气特征,从预先构建的情感语音库中选择相匹配的基础语音片段的数据集;利用动态时间规整算法调整所述基础语音片段的时间轴,使所述基础语音片段的时间轴与所述文本信息的语速相适应的同时保持所述情感色彩的一致性;采用频谱融合技术,将调整后的时间轴与所述文本信息的音素序列进行融合,生成语音输出,其中,所述频谱融合技术用以确保不同的情感色彩的基础语音片段在连接处平滑过渡。本申请提供的技术方案提高了语音合成的情感表达能力、自然度和连贯性,从而大幅提升了用户体验。
技术关键词
情感特征
动态时间规整算法
文本
色彩
基础
生成语音
递归神经网络模型
频谱特征
存储组件
标签
卷积神经网络模型
长短期记忆网络
谐波结构
计算机存储介质
序列
定义
注意力机制
自然语言
系统为您推荐了相关专利信息
字幕生成方法
文本
图像变换器
遥感图像数据
视觉特征
文本分类模型
编码转换技术
词法分析工具
识别网络流量
知识问答系统
排查方法
三维变形场
预警模型
动态时间规整算法
大坝
数据检索系统
网关
检索方法
存储库
循环神经网络模型