摘要
本申请涉及一种文本视频多模态融合的视频时刻检索方法,将文本特征和多尺度视频特征进行全局融合,得到全局偏移量;将文本特征和多尺度视频特征进行局部融合,得到局部偏移量;累加全局偏移量和局部偏移量,得到总的偏移量;根据总的偏移量确定每个候选时刻对应的时间片段;对所有的时间片段采用非极大值抑制方法进行处理,得到最终的时间片段,即为确定的文本查询信息在原始视频中对应的时间片段。本申请解决了现有技术忽略了全局特征融合与局部特征融合的问题,既能捕捉到文本与视频之间的全局语义一致性,同时能够在更细粒度的层次上进行融合,有效的提升了视频时刻检索的准确性。
技术关键词
多尺度
非极大值抑制方法
视频特征提取
检索方法
多层感知机
卷积分类器
多模态
文本编码器
全局特征融合
语义
可读存储介质
特征提取模块
检索装置
计算机程序产品
处理器
动态
系统为您推荐了相关专利信息
组合模块
道路交通数据
分支
并行特征提取
融合多尺度特征
智能变电站
模型训练方法
蒙特卡罗树搜索
链路
数据流调度方法
井下设备
特征提取模型
故障诊断方法
记忆单元
分类器模型
图像增强方法
光照
照度
神经网络模型
多尺度特征