基于多模态异常内容理解的内容主体发现方法

正文

推荐专利

申请号：CN202411002747

申请日期：2024-07-25

公开号：CN118536049B

公开日期：2024-09-24

类型：发明专利

摘要

本发明公开了一种基于多模态异常内容理解的内容主体发现方法，其包括：对多模态数据中的图像、视频、多个音频片段、文本和OCR文本进行特征提取，分别得到图像特征矩阵、视频特征矩阵、音频特征矩阵和文本特征矩阵；将图像特征矩阵、视频特征矩阵、音频特征矩阵与文本特征矩阵进行融合，得到特征矩阵；将特征矩阵在大语言模型上进行LoRA指令监督微调，为大语言模型的输出增加投影层，从大语言模型的输出中提取异常内容和异常内容主体的特征向量；使用向量数据库存储该特征向量，并对该特征向量进行聚类和距离计算，并根据阈值判断是否属于相同的内容主体，生成多模态融合的异常内容报告。本发明提高了异常内容识别的准确性和内容主体发现的效率。

技术关键词

矩阵关键帧全局特征提取局部特征提取图像编码器视频特征提取图像特征提取文本编码器数据融合全局特征多模态特征融合音频特征提取图片编码视频帧

基于多模态异常内容理解的内容主体发现方法

站点导航

APP 下载