摘要
本发明涉及计算机视觉和模式识别技术领域,具体涉及一种基于细粒度模态关系感知网络的视频片段检索方法,步骤如下:提取语义关系增强后的文本查询特征和视频特征;挖掘细粒度的模态关系感知信息,得到细粒度的模态关系感知信息;将交互后的边界图和内容图在通道维度进行拼接得到的融合图,对融合图后通过卷积块来挖掘提案之间的关系,并通过预测模块来获取最终的预测分数;构建基于细粒度模态关系感知网络的损失函数;通过损失函数约束网络的训练,将整个网络输出的预测图预测的分数从大到小排序,获取视频片段的检索结果。本发明能够挖掘细粒度的模态关系感知信息,从而获得鲁棒的查询感知视频特征和视频感知文本特征,获得更精准的检索结果。
技术关键词
视频片段检索方法
查询特征
文本
关系
网络
语义
模块
视频特征提取
编码器
模式识别技术
全局平均池化
邻居
近邻算法
多层感知机
标签
计算机视觉
注意力机制
跨模态