摘要
本发明适用于音频处理领域,公开了一种实时语音的变音方法、终端设备和存储介质。实时语音的变音方法包括:根据实时对话音频,生成原始语音数据,并根据原始语音数据,确定条件特征、多样性特征、填充数据掩码;根据条件特征、多样性特征、填充数据掩码,确定第一张量信息,并根据原始语音数据,确定说话人嵌入向量;根据第一张量信息、说话人嵌入向量、填充数据掩码,确定第二张量信息;根据第二张量信息、说话人嵌入向量和原始语音数据的音高频率,生成目标音色音频。本发明显著提升了变声过程对原始音色特征的重构精度,使生成语音在音色相似度、语调自然度等感知维度达到类真人水平,提高了实时语音的变音真实性。
技术关键词
实时语音
音频
数据
流式解码器
一维卷积神经网络
频谱特征
语音特征
终端设备
融合特征
音色特征
可读存储介质
相位对齐
波形
生成语音
处理器
频率
算法
上采样
存储器
系统为您推荐了相关专利信息
可靠性参数
空间转换矩阵
设备状态数据
神经网络模型
空调器部件
事件检索方法
事件触发词
文本编码器
事件相关度计算方法
嵌入方法
属性反演方法
检波器
储层反演
加速度
输入神经网络模型
石英基板
镀膜工艺
溅射镀膜机
蒸发镀膜机
镀膜设备
人机界面
图像识别模块
数据采集模块
语音识别模块
模拟鼠标