摘要
本申请公开了一种语音转换方法以及装置,方法包括:将帧级声学特征序列与音素级文本特征序列对齐,以生成关注内容信息的音素级声学特征序列;基于音素级文本特征序列、音素级声学特征序列、目标对象标识,生成同时携带内容和声学信息的音素级隐变量序列;将音素级隐变量序列输入训练好的时长预测网络,得到与音素级隐变量序列对应的预测时长序列;基于预测时长序列对音素级隐变量序列中各个音素级隐变量进行时长拓展,得到帧级隐变量序列;基于帧级隐变量序列生成与目标对象标识对应的目标音频;本申请既能保留源音频的情感,不泄露音色,又能生成更接近目标说话人韵律和音色的音频。
技术关键词
声学特征
序列
变量
文本
语音转换方法
音频
标识
对象
文字特征
语音转换装置
网络
存储计算机程序
指令
计算机程序产品
处理器
模块
数据
语义特征
可读存储介质
存储器
系统为您推荐了相关专利信息
敏感信息识别
模型训练方法
指标
数据
非易失性存储介质
意识障碍患者
表情特征
多通道脑电信号
头皮脑电信号
原始脑电信号
知识图谱更新方法
电力设备故障
统计模式识别
实体
电力智能运维技术