基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备

AITNT
正文
推荐专利
基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备
申请号:CN202410983886
申请日期:2024-07-22
公开号:CN118918919A
公开日期:2024-11-08
类型:发明专利
摘要
基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备,属于语音信号处理技术领域。为了解决现有模型在音频分类时存在注意力机制在捕捉位置关系能力弱的问题,本发明利用基于频谱位置编码Transformer的音频分类模型对音频数据的梅尔频谱特征图进行处理,音频分类模型中的频谱切块嵌入层切块将频谱特征切为M行N列的频谱块,进而展平为一维序列得到特征序列,然后Transformer层的多头自注意力模块融入了频谱块相对位置偏置值,频谱块相对位置偏置值与两个频谱块的相对位置一一对应;根据Transformer层的输出预测得到分类结果。
技术关键词
分类模型训练方法 音频分类方法 频谱特征 切块 注意力机制 序列 编码器 前馈神经网络 语音信号处理技术 生成语音 索引 坐标 计算机存储介质 分类设备 处理器
系统为您推荐了相关专利信息
1
一种基于AI大模型的城市行车策略生成方法及设备
车辆 数值 行车策略 计划 生成方法
2
一种电力计量终端
电力计量终端 智能电表终端 神经网络加速器 异常检测方法 负荷分解方法
3
用于基因多态性快速分型诊断的智能识别方法及系统
智能识别方法 多模态数据融合 特征选择算法 基因测序数据 生物信息数据分析技术
4
一种自动判别线下营销场景作弊的人工智能方法及设备
香烟展示柜 人工智能方法 细粒度分类 图像 线下
5
一种基于扩散模型的PCB异常检测方法、装置及设备
异常检测方法 交叉注意力机制 语义向量 重构 风格
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号