摘要
本发明公开了一种基于多模态异常内容理解的内容主体发现方法,其包括:对多模态数据中的图像、视频、多个音频片段、文本和OCR文本进行特征提取,分别得到图像特征矩阵、视频特征矩阵、音频特征矩阵和文本特征矩阵;将图像特征矩阵、视频特征矩阵、音频特征矩阵与文本特征矩阵进行融合,得到特征矩阵;将特征矩阵在大语言模型上进行LoRA指令监督微调,为大语言模型的输出增加投影层,从大语言模型的输出中提取异常内容和异常内容主体的特征向量;使用向量数据库存储该特征向量,并对该特征向量进行聚类和距离计算,并根据阈值判断是否属于相同的内容主体,生成多模态融合的异常内容报告。本发明提高了异常内容识别的准确性和内容主体发现的效率。
技术关键词
矩阵
关键帧
全局特征提取
局部特征提取
图像编码器
视频特征提取
图像特征提取
文本编码器
数据
融合全局特征
多模态特征融合
音频特征提取
图片
编码视频帧