摘要
本发明涉及计算机视觉和多模态内容分析技术领域,公开了一种基于LLM的视频多模态检测方法及系统,其中,一种基于LLM的视频多模态检测方法包括:通过多层次神经网络将视频中的视觉、音频和文字信息投影至统一语义空间,计算模态间一致性得分以定位潜在冲突点,提取文化背景信息计算表达内容与文化预期间的偏差值,通过层级化特征提取识别非字面表达,识别视频中的不同叙述视角并评估对一致性判断的影响,最后对不同类型冲突采取差异化处理策略;本发明解决了传统多模态分析中忽视模态冲突、对跨文化表达理解不足及视角差异造成的误判问题,提升了视频内容检测的准确性和跨文化理解能力。
技术关键词
识别视频内容
视角
多模态检测系统
分析语言特征
时空聚类分析
语义关联网络
内容分析技术
识别特征
特征提取系统
视觉
音频
语言声音
层级
信息处理系统
理解系统
上下文特征
多层次
系统为您推荐了相关专利信息
3D点云
虚拟三维场景
数据集构建方法
相机
视角
智能巡检方法
无人机
定位设备
多视角
时空图模型
人体扫描系统
TOF传感器
多视角
模式切换模块
空洞