摘要
基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备,属于语音信号处理技术领域。为了解决现有模型在音频分类时存在注意力机制在捕捉位置关系能力弱的问题,本发明利用基于频谱位置编码Transformer的音频分类模型对音频数据的梅尔频谱特征图进行处理,音频分类模型中的频谱切块嵌入层切块将频谱特征切为M行N列的频谱块,进而展平为一维序列得到特征序列,然后Transformer层的多头自注意力模块融入了频谱块相对位置偏置值,频谱块相对位置偏置值与两个频谱块的相对位置一一对应;根据Transformer层的输出预测得到分类结果。
技术关键词
分类模型训练方法
音频分类方法
频谱特征
切块
注意力机制
序列
编码器
前馈神经网络
语音信号处理技术
生成语音
索引
坐标
计算机存储介质
分类设备
处理器
系统为您推荐了相关专利信息
电力计量终端
智能电表终端
神经网络加速器
异常检测方法
负荷分解方法
智能识别方法
多模态数据融合
特征选择算法
基因测序数据
生物信息数据分析技术
异常检测方法
交叉注意力机制
语义向量
重构
风格