一种基于深度学习跨模态技术的无人机视频检索方法

正文

推荐专利

申请号：CN202510774162

申请日期：2025-06-11

公开号：CN120316305B

公开日期：2025-08-15

类型：发明专利

摘要

本发明公开了一种基于深度学习跨模态技术的无人机视频检索方法，包括：根据用户输入的文本，进行初步分类，获取待检测的时间、地点、对象和目的；从时间、地点、对象三个维度对原始视频进行预筛选，得到可能的关键帧和包含检测对象的目标框；根据改进后的VIT模型对文本和预筛选的关键帧进行精准匹配，得到准确图片帧；搭建基于GRU‑CRF的神经网络，根据待检测的目的调整GRU网络的步长，对准确图片帧进行处理，将属于同一个视频片段的图片帧归类，得到符合用户要求的视频片段。本发明从四个维度的信息抽取关键帧和对图片帧进行分类，极大地缩短了视频检索时长，提高了视频检索效率和准确性。

技术关键词

视频检索方法图片跨模态文本事件特征关键帧对象无人机飞行高度地点卷积神经网络提取多尺度特征提取标签 CRF模型注意力分辨率像素

系统为您推荐了相关专利信息

一种以症状清晰化为目的的智能问诊对话方法和系统

大语言模型医疗知识图谱计算机可读取存储介质对话方法策略

基于视频姿态捕捉的英语发音评测方法及系统

发音动作特征音频特征序列视频帧

一种基于数字文化领域大数据模型的部署方法和应用终端

注意力机制算法数据语音识别分析查询方法特征提取方法

一种用于烟草行业项目管理的电子档案管理方法、系统及电子设备

档案管理方法主题标签书架局部特征信息

图像分割方法、装置、电子设备及可读存储介质

文本注意力编码特征解码模块编码模块

一种基于深度学习跨模态技术的无人机视频检索方法

站点导航

APP 下载