一种基于多层级特征融合的掩码自编码声纹识别方法

正文

推荐专利

申请号：CN202411092231

申请日期：2024-08-09

公开号：CN120388568A

公开日期：2025-07-29

类型：发明专利

摘要

本发明公开了一种基于多层级特征融合的掩码自编码声纹识别方法，将原始的音频数据经过短时傅里叶变换和梅尔滤波器组转换为梅尔频谱图；将梅尔频谱图进行分块并随机掩码后输入到编码器中；挑选若干层中间特征，使用投影层将其与编码器最后一层的特征进行语义对齐，使用动态权重融合策略得到融合特征；将融合特征输入到解码器中，以最小化原始梅尔频谱图与重构梅尔频谱图之间的绝对值损失作为优化目标，完成预训练；在微调阶段，使用预训练的编码器作为初始模型，利用带标签数据集进行声纹分类，使用模型输出的每一类别的概率与真实标签之间的交叉熵损失作为优化目标进行微调。本方案增强隐藏空间中的表征质量，提升了在声纹识别任务上的准确率。

技术关键词

声纹识别方法多层级特征编码器短时傅里叶变换多头注意力机制滤波器解码器重构频率语音融合特征带标签多层次特征线性数据语义权重策略分块

一种基于多层级特征融合的掩码自编码声纹识别方法

站点导航

APP 下载