摘要
本发明涉及数据安全技术领域,具体涉及一种非结构化视频数据自动分类方法,包括以下步骤:S1,视频数据预处理:将视频数据标准化到统一格式和尺寸,并进行噪声处理;S2,视频数据特征提取及多模态特征融合:将预处理后的视频数据从音频、视频及文本三种模态分别进行特征提取,进行时序处理,并进行多模态特征融合;S3,视频数据同类别匹配:将融合后多模态特征进行分类,完成视频的分类;本发明,能够更精准地捕捉视频中的多模态信息,实现视频数据的自动化处理;在大规模数据中保持较高的处理效率和分类准确度,同时自动化程度的提高减少了人工参与的必要性,优化了整体流程。
技术关键词
自动分类方法
音频特征
文本
多模态特征融合
短时傅里叶变换
多头注意力机制
数据特征提取
编码
自动语音识别
视频帧
LSTM模型
时序特征
记忆
Softmax函数