摘要
本发明涉及语音语义技术领域,可应用于金融科技、医疗健康等业务系统平台中,揭露了一种可控零样本语音转换方法、装置、设备及介质,所述方法包括:对未标注语音数据进行自监督语音学习,得到自监督语音表示,提取自监督语音表示的内容特征向量和韵律风格向量,并转化为离散内容令牌和离散韵律令牌,对离散韵律令牌进行掩码生成,得到目标韵律令牌,获取目标用户的参考语音,提取参考语音中的用户风格嵌入,对离散内容令牌、目标韵律令牌和用户风格嵌入进行流匹配,生成目标梅尔频谱图,对目标梅尔频谱图进行语音波形重建与优化,得到零样本语音转换结果。本发明在无标注语音数据条件下,实现个性化、高保真、风格一致的零样本语音转换问题。
技术关键词
语音转换方法
令牌
风格
波形
样本
音色特征
语音语义技术
语音转换装置
数据
高频特征
生成语音
医疗健康
编码器
声码器
电子设备
处理器通信
业务系统
模块
系统为您推荐了相关专利信息
解码器模型
数据解码器
风电功率预测系统
风电功率预测方法
气象
预测误差
概率密度估计方法
功耗
功率
概率预测方法
突变检测方法
剩余电流互感器
指数平滑法
智能电能表
有效值