摘要
本发明涉及一种基于多模态融合的实时人群恐慌概率识别方法及系统,其中方法包括:采集视频数据和音频数据并进行数据预处理;将经过预处理的视频数据输入CDNet中得到密度图;提取密度图中的候选恐慌区域;对视频数据中处于候选恐慌区域中的目标人员进行逐帧识别,得到运动轨迹序列;根据运动轨迹序列的高阶时序特征得到目标人员的运动轨迹恐慌概率;将经过预处理的音频数据转化为逐帧文本序列,识别恐慌类语言内容;将密度图的空间结构特征、运动轨迹恐慌概率的特征向量和恐慌类语言内容的上下文语义特征融合为统一表示向量;将统一表示向量输入多层感知机中,得到人群恐慌概率识别结果。与现有技术相比,本发明具有更强的适应性与鲁棒性。
技术关键词
识别方法
空间结构特征
多模态
密度
语义知识网络
轨迹
多层感知机
时序特征
序列
数据
语义特征
文本
视频
关键词
运动
音频
多尺度卷积核
长短期记忆网络
场景
模块