摘要
本发明提供了一种混合专家思维增强的大模型低空视频事件检测方法及装置,涉及人工智能技术领域,旨在解决现有视频事件检测方法由于没有充分考虑视频中的动态信息、事件特性以及事件发生的瞬时性,导致检测精度和检测效率低下的技术问题。该方法包括:对获取的低空视频事件数据进行多模态特征提取,得到RGB图像特征、光流图像特征和音频特征;然后统一映射至同一大语言模型的表示空间进行语义对齐处理,得到多模态语义标记序列;再将多模态语义标记序列输入预先构建的混合专家模型,利用模态路由器为各模态特征匹配对应的专家模型;根据匹配到的专家模型,对多模态特征进行分类检测;融合各专家模型的分类检测结果得到最终低空视频事件检测结果。
技术关键词
视频事件检测方法
多模态
音频特征
模态特征
标记
图像
大语言模型
序列
路由器
视频事件检测装置
关键帧
语义特征
语音识别模型
数据
处理器
分支
人工智能技术
系统为您推荐了相关专利信息
三维虚拟模型
岩土勘察设备
图像融合方法
处理器
计算机程序产品
电力电子器件
寿命预测模型
退化特征
多模态特征融合
特征提取单元
多模态情感识别
特征加权融合
情感识别方法
跨模态
注意力