一种基于LLM的视频多模态检测方法及系统

正文

推荐专利

申请号：CN202510550460

申请日期：2025-04-29

公开号：CN120071225B

公开日期：2025-07-04

类型：发明专利

摘要

本发明涉及计算机视觉和多模态内容分析技术领域，公开了一种基于LLM的视频多模态检测方法及系统，其中，一种基于LLM的视频多模态检测方法包括：通过多层次神经网络将视频中的视觉、音频和文字信息投影至统一语义空间，计算模态间一致性得分以定位潜在冲突点，提取文化背景信息计算表达内容与文化预期间的偏差值，通过层级化特征提取识别非字面表达，识别视频中的不同叙述视角并评估对一致性判断的影响，最后对不同类型冲突采取差异化处理策略；本发明解决了传统多模态分析中忽视模态冲突、对跨文化表达理解不足及视角差异造成的误判问题，提升了视频内容检测的准确性和跨文化理解能力。

技术关键词

识别视频内容视角多模态检测系统分析语言特征时空聚类分析语义关联网络内容分析技术识别特征特征提取系统视觉音频语言声音层级信息处理系统理解系统上下文特征多层次

系统为您推荐了相关专利信息

基于虚拟三维场景的数据集构建方法及装置

3D点云虚拟三维场景数据集构建方法相机视角

一种用于工地作业安全的无人机智能巡检方法

智能巡检方法无人机定位设备多视角时空图模型

一种基于对比学习的图规则学习方法

样本项目架构动态演示模型节点多层次

一种三维场景的锚点生成方法及装置

生成方法场景对象视角锚点

一种基于多视角TOF传感器的人体扫描系统

人体扫描系统 TOF传感器多视角模式切换模块空洞

一种基于LLM的视频多模态检测方法及系统

站点导航

APP 下载