摘要
本发明公开了一种基于深度学习跨模态技术的无人机视频检索方法,包括:根据用户输入的文本,进行初步分类,获取待检测的时间、地点、对象和目的;从时间、地点、对象三个维度对原始视频进行预筛选,得到可能的关键帧和包含检测对象的目标框;根据改进后的VIT模型对文本和预筛选的关键帧进行精准匹配,得到准确图片帧;搭建基于GRU‑CRF的神经网络,根据待检测的目的调整GRU网络的步长,对准确图片帧进行处理,将属于同一个视频片段的图片帧归类,得到符合用户要求的视频片段。本发明从四个维度的信息抽取关键帧和对图片帧进行分类,极大地缩短了视频检索时长,提高了视频检索效率和准确性。
技术关键词
视频检索方法
图片
跨模态
文本
事件特征
关键帧
对象
无人机飞行高度
地点
卷积神经网络提取
多尺度特征提取
标签
CRF模型
注意力
分辨率
像素
系统为您推荐了相关专利信息
大语言模型
医疗知识图谱
计算机可读取存储介质
对话方法
策略
注意力机制算法
数据
语音识别分析
查询方法
特征提取方法