一种基于多层级特征融合的掩码自编码声纹识别方法

AITNT
正文
推荐专利
一种基于多层级特征融合的掩码自编码声纹识别方法
申请号:CN202411092231
申请日期:2024-08-09
公开号:CN120388568A
公开日期:2025-07-29
类型:发明专利
摘要
本发明公开了一种基于多层级特征融合的掩码自编码声纹识别方法,将原始的音频数据经过短时傅里叶变换和梅尔滤波器组转换为梅尔频谱图;将梅尔频谱图进行分块并随机掩码后输入到编码器中;挑选若干层中间特征,使用投影层将其与编码器最后一层的特征进行语义对齐,使用动态权重融合策略得到融合特征;将融合特征输入到解码器中,以最小化原始梅尔频谱图与重构梅尔频谱图之间的绝对值损失作为优化目标,完成预训练;在微调阶段,使用预训练的编码器作为初始模型,利用带标签数据集进行声纹分类,使用模型输出的每一类别的概率与真实标签之间的交叉熵损失作为优化目标进行微调。本方案增强隐藏空间中的表征质量,提升了在声纹识别任务上的准确率。
技术关键词
声纹识别方法 多层级特征 编码器 短时傅里叶变换 多头注意力机制 滤波器 解码器 重构 频率 语音 融合特征 带标签 多层次特征 线性 数据 语义 权重策略 分块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号