摘要
本发明公开了基于多模态的发声物多分类方法、装置及计算机设备。所述方法包括:获取待分类发声物的音视频,以得到音频信息以及视频信息;将所述音频信息以及所述视频信息输入至分类模型内进行分类,以得到分类结果;出所述分类结果;其中,所述分类模型通过若干个带有类别标签的音视频信息作为样本集训练深度学习模型所得的。通过实施本发明的方法可实现既能有效地处理多类别声音分类问题,又能结合多模态信息增强分类准确性,并具备强大的噪音过滤能力以提高在嘈杂环境下的识别精度,解决因噪音干扰强烈仅从纯语音模态进行声音分类识别准确率不高的问题。
技术关键词
音频特征
训练深度学习模型
分类方法
空间金字塔池化网络
多模态
发声
音视频
多层感知机层
分类模型训练
时间序列特征
矩阵
计算机设备
门控循环单元网络
梅尔频率倒谱系数
时序特征
融合特征
标签