摘要
本发明提出一种基于双关系时间对齐与自适应区域优化方法与系统,该方法包括:获取视频与问题提示文本,利用视觉编码器对视频进行特征提取以得到视觉特征,利用文本编码器对问题提示文本进行特征提取以得到文本特征,将视觉特征进行全局平均池化处理,并与文本特征进行余弦相似度计算,以得到每一帧的视觉特征表示与文本特征的相关性得分的集合,根据每一帧的视觉特征表示与文本特征的相关性得分进行筛选,以得到高相关帧集合与中等相关帧集合。本发明引入一种动态空间采样模块,从与提示相关的热力图候选区域中提取最大连通区域,以消除分散干扰,增强空间特征表达的紧凑性,从而极大减小了空间噪声的干扰。
技术关键词
视觉特征
感兴趣
文本编码器
全局平均池化
关键帧
热力图
采样模块
关系
跨度
视频特征向量
坐标
答案
特征提取模块
序列
图像
采样器
算法
动态
系统为您推荐了相关专利信息
红外检测方法
模块
图像多尺度
特征提取能力
红外图像特征
闯入检测方法
权重模型
动态
关键点
全局平均池化
金字塔结构
检测头
高层语义信息
计算机视觉技术
全局平均池化