摘要
本申请属于人工智能技术领域,涉及一种基于人工智能的语音处理方法、装置、计算机设备及存储介质,包括:基于语言转换模型的内容编码器,节奏编码器与音高编码器对待处理语音进行特征提取,得到内容特征、节奏特征与音高特征;基于瓶颈适配器对内容特征、节奏特征与音高特征进行调整,得到指定内容特征、指定节奏特征与指定音高特征;基于一致性模块对指定内容特征进行优化得到目标内容特征;基于目标内容特征、指定节奏特征、指定音高特征及说话人嵌入向量生成目标特征向量;基于扩散模型对目标特征向量进行处理得到目标频谱特征;基于声码器将目标频谱特征转换为合成语音。本申请提高了语音解耦的效率和精度,提升了合成语音的音质。
技术关键词
节奏特征
语音
频谱特征
计算机可读指令
排序损失
文本编码器
计算机设备
生成样本数据
模块
适配器
梯度下降算法
可读存储介质
人工智能技术
瓶颈
声码器
处理器
采样率
存储器
系统为您推荐了相关专利信息
图像检测方法
特征提取模型
语义特征提取
文本
计算机可读指令
集成分析系统
物体
集成分析方法
节奏特征
图像采集设备
气体浓度预测方法
频谱特征
训练深度学习模型
电阻值
气敏电阻
待测产品
功能检测方法
功能检测装置
音频
语音识别模块