摘要
本发明属于跨模态视频时刻定位技术领域,涉及一种基于频域增强的跨模态视频敏感事件检索方法和系统。该方法包括:获取文本和视频两个模态的数据,将两个模态的数据分别进行编码,得到两个模态的特征;通过快速傅里叶变换分别将两个模态的特征投影至频域,并实现视频模态的特征在频域中的增强,得到频域增强的视频特征;通过高斯分布为频域增强的视频特征生成正负候选视频段,分别表示最接近检索请求的和最不接近检索请求的候选视频段,选取最接近检索请求的候选视频段作为检索结果,从而实现跨模态的视频时刻定位;进而将正负候选视频段进行多尺度对比学习,提高正负候选视频段的生成质量,并提高跨模态视频敏感事件检索的准确率。
技术关键词
视频段
事件检索方法
跨模态
样本
多尺度
存储计算机程序
融合特征
残差反馈
可读存储介质
文本
特征提取模块
检索系统
定位技术
数据
语句
计算机设备
编码
语义
系统为您推荐了相关专利信息
隧道注浆材料
拓扑结构特征
数据
多尺度
语义特征
变化检测网络
遥感影像数据
滑动窗口法
多尺度特征学习
预处理器
卡口设备
车辆轨迹预测
候选位置集合
生成多尺度
车道中心线