摘要
本发明公开一种语音环境转换方法及系统,属于语音环境转换领域;一种语音环境转换方法包括:获取原音频和目标音频;通过FVQ模型,从将原音频和目标音频中提取音色特征向量、语义词元和音频环境词元;语义词元对音频环境词元执行交叉注意力后,与音色特征向量一起送入解码器中,最终得到合成音频。实现对音频环境及音频内容,音色的解耦,从而实现语音环境的转换、音频环境效果强度的控制以及多个音频环境叠加的功能。
技术关键词
音频
转换方法
语音
矢量量化
语义
环境转换系统
解码器
注意力
编码器主体
分类器
通信接口
计算机存储介质
计算机程序产品
存储器
处理器
指令
数据
电子设备
系统为您推荐了相关专利信息
智能推理方法
节点
路径匹配
智能推理系统
知识推理技术
检测头
融合特征
语义特征
融合注意力机制
残差矩阵
巡检图像
分类网络
处理器
计算机存储介质
图像处理技术