摘要
本发明属于计算机视觉与模式识别技术领域,公开了一种用于时刻检索与高光检测的方法及相关装置;其中,所述用于时刻检索与高光检测的方法包括:获取文本描述和视频序列;基于获取的文本描述和视频序列,利用训练好的基于语言感知的DETR模型进行预测,获得时刻检索预测结果与高光检测预测结果;基于语言感知的DETR模型包括:视频编码器和文本编码器;多模态特征融合单元;语言感知的参考查询单元;查询交互单元。本发明公开的技术方案,解决了现有DETR架构在自然语言时序定位任务中存在的语义对齐不足的技术难题,另外也缓解了现有技术存在的语义脱节与浅层交互的问题。
技术关键词
视觉特征
解码器
多模态特征融合
交叉注意力机制
序列特征
文本编码器
视频编码器
跨模态
非暂态计算机可读存储介质
模式识别技术
排序损失
检测损失
数据获取模块
处理器