摘要
本发明公开了一种基于深度学习的音频自动标签方法及系统,涉及音频信号处理及深度学习领域,基于深度学习的音频自动标签方法主要包括:对输入音频进行预处理得到三通道梅尔频谱图;利用人工智能开发工具构建多层卷积神经网络;对三通道梅尔频谱图进行数据增强处理得到增强数据;利用增强数据对多层卷积神经网络进行训练和优化得到预训练模型;基于测试时增强策略,利用预训练模型对输入音频图像进行预测得到音频标签集合。实施本发明提供的基于深度学习的音频自动标签方法及系统,能提高音频标签预测的实时性、准确性和鲁棒性。
技术关键词
多层卷积神经网络
自动标签
预训练模型
三通道
多标签
数据
滤波器
音频信号处理
指标
非线性特征
特征提取模块
图像
阶段
策略
动态
采样率
系统为您推荐了相关专利信息
参数检测方法
多层卷积神经网络
接地网钢筋
局部特征提取
信号
风险预警方法
多模态
模态特征
在线学习机制
风险预警系统
性能测试用例
版本控制系统
分块
语义
函数调用关系
能见度检测方法
道路能见度检测
道路图像数据
离散余弦变换
监控相机