基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备

正文

推荐专利

申请号：CN202410983886

申请日期：2024-07-22

公开号：CN118918919A

公开日期：2024-11-08

类型：发明专利

摘要

基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备，属于语音信号处理技术领域。为了解决现有模型在音频分类时存在注意力机制在捕捉位置关系能力弱的问题，本发明利用基于频谱位置编码Transformer的音频分类模型对音频数据的梅尔频谱特征图进行处理，音频分类模型中的频谱切块嵌入层切块将频谱特征切为M行N列的频谱块，进而展平为一维序列得到特征序列，然后Transformer层的多头自注意力模块融入了频谱块相对位置偏置值，频谱块相对位置偏置值与两个频谱块的相对位置一一对应；根据Transformer层的输出预测得到分类结果。

技术关键词

分类模型训练方法音频分类方法频谱特征切块注意力机制序列编码器前馈神经网络语音信号处理技术生成语音索引坐标计算机存储介质分类设备处理器

系统为您推荐了相关专利信息

一种基于AI大模型的城市行车策略生成方法及设备

车辆数值行车策略计划生成方法

一种电力计量终端

电力计量终端智能电表终端神经网络加速器异常检测方法负荷分解方法

用于基因多态性快速分型诊断的智能识别方法及系统

智能识别方法多模态数据融合特征选择算法基因测序数据生物信息数据分析技术

一种自动判别线下营销场景作弊的人工智能方法及设备

香烟展示柜人工智能方法细粒度分类图像线下

一种基于扩散模型的PCB异常检测方法、装置及设备

异常检测方法交叉注意力机制语义向量重构风格

基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备

站点导航

APP 下载