摘要
本发明涉及人工智能技术领域,公开了一种情感语音转换方法、装置、设备及介质,方法包括:根据输入的原始音频波形转换提取原始音频特征表示,其中,原始音频特征表示为原始梅尔频谱图或SSL表示;根据输入的原始音频波形转换提取原始音频HuBERT表征作为真实单元序列;对提取获得的原始音频特征表示进行风格分解后结合目标风格进行风格重构,获得目标风格编码特征向量;通过交叉注意力机制根据情感单元输入的情感特征向量结合目标风格编码特征向量聚集上下文信息,并压缩至单元级;对上下文信息分别进行单元级风格化和帧级风格化;根据目标风格向量、单元级风格化后的上下文信息及帧级风格化后的上下文信息创建目标语音梅尔频谱图。
技术关键词
情感语音转换方法
音频特征
风格
交叉注意力机制
自动编码器
波形
语音转换装置
序列
长度调节器
可读存储介质
人工智能技术
处理器
重构模块
矩阵
系统为您推荐了相关专利信息
功能分类方法
活动特征
BERT模型
序列特征
视觉特征
图像退化模型
超分辨率成像
阶段
压缩感知理论
分支
康复系统
频域特征
训练呼吸功能
数据采集单元
交叉注意力机制
服装设计系统
特征提取模块
风格
结构特征提取
语义