一种灾害救援场景下的无人机航拍视频语言定位方法

正文

推荐专利

申请号：CN202510478340

申请日期：2025-04-16

公开号：CN120544070A

公开日期：2025-08-26

类型：发明专利

摘要

本发明公开了一种灾害救援场景下的无人机航拍视频语言定位方法，包括：获取多个连续帧图像的无人机航拍视频以及待定位目标的自然语言描述文本，共同输入无人机航拍视频语言定位系统中，得到语言定位结果；其中，无人机航拍视频语言定位系统包括视频文本特征提取器、多模态多尺度时空特征编码模块、查询调制模块、多尺度感知的坐标动态推理解码模块；最终通过多尺度感知的坐标动态推理解码模块输出更新后的目标边界框坐标用于表征自然语言描述文本指代的目标在图像中的空间位置。本发明可以对航拍视频内容进行深入的语义分析和上下文理解，显著提高无人机在安防救援任务中的实用性和效率。

技术关键词

无人机航拍视频上下文查询多尺度感知救援场景视觉特征令牌定位方法多层感知机解码模块注意力文本自然语言坐标编码模块多模态特征多尺度特征特征提取器

系统为您推荐了相关专利信息

一种基于多数据源的公共数据平台检索方法及系统

识别标签文本检索方法检索系统矩阵

一种基于文本引导的弱监督图像缺陷分割方法及系统

图像缺陷分割方法多尺度图像块特征前景文本图像分割模型辅助分类器

一种多台协同的大规模数字直播方法及系统

大规模数字直播方法编码视频流资源分配队列算法数据处理算法

融合手势标注的编辑式非自回归手语翻译方法及装置

神经网络模型手势手语翻译方法视觉特征手语翻译装置

基于图片生成文本的方法、图生文模型训练方法、装置、设备、介质和程序产品

图片图文文本模型训练方法网络

一种灾害救援场景下的无人机航拍视频语言定位方法

站点导航

APP 下载