摘要
本发明公开了一种视频内容识别自动分类的方法及系统,方法包括S1、多模态特征提取:基于深度学习模型、音频处理技术和自然语言处理技术分别提取视频数据的视觉特征、音频特征和文本特征;S2、多模态信息融合:采用特征拼接或加权求和或深度学习融合的方式将提取到的视觉特征、音频特征和文本特征进行融合,得到视频的多模态特征表示;S3、视频分类:基于设置有领域对抗神经网络的深度学习分类器,对视频的多模态特征表示进行分类,获取视频的分类结果。优点是:通过采用深度学习算法,结合多模态信息融合技术,能够自动从视频中学习到有效的特征表示,从而提高视频分类的准确性。在复杂场景下,仍能保持较高的准确性。
技术关键词
模态特征
多模态信息融合
深度学习融合
音频特征
学习分类器
深度学习模型
文本
卷积神经网络模型
关键帧
自然语言生成技术
梅尔频率倒谱系数
生成视频摘要
序列
视觉特征提取
数据