摘要
本发明涉及语言信号处理领域、金融科技领域以及医疗健康领域,公开了一种文本转换语音方法、装置、设备及介质,包括:对目标文本进行文本分词处理以及词性标注处理,得到预处理文本,利用预设的双自回归架构根据预处理文本生成输出编码,利用解码器根据输出编码生成梅尔频谱,利用编码架构对梅尔频谱进行量化重构处理,得到量化张量,计算量化张量与梅尔频谱的张量损失值,基于反向传播算法根据张量损失值优化编码器架构的参数,基于优化后的编码架构根据预先获取的待处理文本生成提示编码,结合提示编码以及待处理文本生成待处理梅尔频谱,利用预设的声码器根据待处理梅尔频谱生成目标音频。提高了文本转音频的效率这准确度。
技术关键词
语音方法
文本
线性变换矩阵
编码器架构
前馈神经网络
传播算法
音频
频谱特征
声码器
短时傅里叶变换
解码器
可读存储介质
分词
语音装置
医疗健康
通道
处理器
重构模块
系统为您推荐了相关专利信息
国际运价数据
智能解析方法
搜索工具
解析器
语义
产品全生命周期
多模态
工业知识图谱
知识本体
三元组
数据模型建立方法
大语言模型
专业术语编码
分布式爬虫技术
平行语料库