摘要
本发明涉及音频信号处理领域,具体的涉及一种基于VQ‑MAE网络的抹香鲸叫声增强方法,包括:步骤1:对抹香鲸叫声音频信号进行噪声降低处理,调整音频信号的振幅范围;步骤2:处理频谱图像,将提取后的特征向量作为MAE网络输入的一部分;步骤3:通过LSTM网络对音频信号进行处理,提取原始的音频信号的时序特征;步骤4:设计并训练一个多模态掩码编码器MAE网络,训练不同模态的融合权重;步骤5:进行掩码,选取掩码效果最好的策略训练网络进行数据增强。本发明创新性的引入了多模态网络融合声音信号的时域、频域以及空间域特征,更为精确且深入地捕捉与增强抹香鲸叫声中的语义细节,为叫声的分类和识别提供了强有力的支持。
技术关键词
掩码策略
编码器
网络
图像
时序特征
解码器
GAN模型
令牌
梅尔频率倒谱系数
音频信号分解
像素
高维向量空间
模态特征
滤波器
多模态
采样点
音频信号处理
系统为您推荐了相关专利信息
深度确定性策略梯度
流动监测装置
算法模型
送风口调节装置
风机转速
产品特征信息
风险评估值
投资产品推荐方法
时间段
对象
故障诊断模型
对抗性
数据
迁移学习策略
有源配电网
预测电能表
软件可靠性评估
时间段
启发式算法
神经网络模型