摘要
本发明公开了基于帧间差分的交通视频问答方法,基于交通视频的局部突变特性,创新性地在图像预训练模型基础上构建帧间差分提取模块:通过相邻帧的像素级差异计算,有效捕捉运动目标的突变特征。设计门控特征融合机制,在融合问题特征的基础上,动态对齐差分特征与视觉特征的空间分布,实现静态场景与动态变化的协同表征。为增强跨模态特征对齐,提出了层次对比学习策略:在底层实施差分‑视觉特征对比以强化局部动态感知,在高层进行文本‑视觉对比以建立全局语义关联。实验结果表明,本发明在SUTD‑TrafficQA基准数据集上提高了分类性能。
技术关键词
视觉特征
视频问答方法
答案
文本
分类准确率
语义
交通
抑制背景噪声
交叉注意力机制
动态
BERT模型
跨模态
视频帧间
多模态特征
融合视觉
预训练模型
系统为您推荐了相关专利信息
关键部位识别方法
知识图谱推理
视觉特征
融合特征
构建知识图谱
交通流预测方法
特征提取模块
大语言模型
交通流预测模型
文本
情绪识别系统
多模态
人工智能模型
生成警报信号
语音
语音识别方法
音视频
视觉特征提取
音频特征提取
机器可读程序