摘要
本发明提供了一种基于场景语义理解的行为识别方法,涉及行为识别技术领域,本发明通过利用跨模态特征的融合,引导动态场景图的生成,更大程度的利用时序信息,加强了动态场景图的在关系变化方面的逻辑约束性,通过动态场景图字典,将场景语义抽象出来,智能筛选关键信息,大幅削减冗余数据处理量,加速模型运算,强化实时性能,确保在复杂场景下迅速响应。在行为识别中利用场语义对视频帧特征进行空间加权,从而减少了冗余信息对行为识别的干扰,提升了行为识别的速度和准确性。同时,本发明采用动态场景图解析与MLP‑mixer层技术,实现对行为的多角度、精细化识别,进一步提高行为识别的准确性和稳定性。
技术关键词
场景语义理解
实体
动态场景
识别方法
空间关系特征
字典
加权特征
文本编码器
图像编码器
令牌
区域建议网络
关系分类器
融合特征
视频帧特征
蒸馏
序列
兴趣