基于多模态的发声物多分类方法、装置及计算机设备

正文

推荐专利

申请号：CN202510802782

申请日期：2025-06-16

公开号：CN120612947A

公开日期：2025-09-09

类型：发明专利

摘要

本发明公开了基于多模态的发声物多分类方法、装置及计算机设备。所述方法包括：获取待分类发声物的音视频，以得到音频信息以及视频信息；将所述音频信息以及所述视频信息输入至分类模型内进行分类，以得到分类结果；出所述分类结果；其中，所述分类模型通过若干个带有类别标签的音视频信息作为样本集训练深度学习模型所得的。通过实施本发明的方法可实现既能有效地处理多类别声音分类问题，又能结合多模态信息增强分类准确性，并具备强大的噪音过滤能力以提高在嘈杂环境下的识别精度，解决因噪音干扰强烈仅从纯语音模态进行声音分类识别准确率不高的问题。

技术关键词

音频特征训练深度学习模型分类方法空间金字塔池化网络多模态发声音视频多层感知机层分类模型训练时间序列特征矩阵计算机设备门控循环单元网络梅尔频率倒谱系数时序特征融合特征标签

基于多模态的发声物多分类方法、装置及计算机设备

站点导航

APP 下载