摘要
本发明涉及计算机视觉技术领域,具体涉及基于双重语义对齐的视频时刻检索和高光检测方法,包括:利用视觉编码器和文本编码器分别提取视觉特征和文本特征;对视觉特征和文本特征进行交叉注意力运算得到联合特征;利用编码器和解码器对联合特征进行处理,编码器输出用于高光检测,解码器输出用于时刻检索;基于显著性对比学习实现片段级语义对齐;基于时刻中心距离实现时刻级语义对齐;采用匈牙利算法进行二分匹配,将预测时刻与真实时刻建立最优对应关系;联合优化高光检测损失和时刻检索损失更新编码器、解码器参数。本发明通过显著性对比学习方法和中心距离回归方法进行双重语义对齐,实现更准确地高光检测以及输出更准确的时刻检索。
技术关键词
文本编码器
解码器
语义
检测损失
注意力机制
匈牙利算法
视频
样本
视觉特征提取
计算机视觉技术
网络
特征提取模块
掩码矩阵
回归方法
计算中心
学习方法
系统为您推荐了相关专利信息
建筑物模型
建筑构件
影像
建筑点云
地面激光扫描仪
生成规则
模板
可读存储介质
人工智能技术
处理器
语义结构
文本处理方法
电力设备
深度神经网络模型
距离估计