一种灾害救援场景下的无人机航拍视频语言定位方法

AITNT
正文
推荐专利
一种灾害救援场景下的无人机航拍视频语言定位方法
申请号:CN202510478340
申请日期:2025-04-16
公开号:CN120544070A
公开日期:2025-08-26
类型:发明专利
摘要
本发明公开了一种灾害救援场景下的无人机航拍视频语言定位方法,包括:获取多个连续帧图像的无人机航拍视频以及待定位目标的自然语言描述文本,共同输入无人机航拍视频语言定位系统中,得到语言定位结果;其中,无人机航拍视频语言定位系统包括视频文本特征提取器、多模态多尺度时空特征编码模块、查询调制模块、多尺度感知的坐标动态推理解码模块;最终通过多尺度感知的坐标动态推理解码模块输出更新后的目标边界框坐标用于表征自然语言描述文本指代的目标在图像中的空间位置。本发明可以对航拍视频内容进行深入的语义分析和上下文理解,显著提高无人机在安防救援任务中的实用性和效率。
技术关键词
无人机航拍视频 上下文查询 多尺度感知 救援场景 视觉特征 令牌 定位方法 多层感知机 解码模块 注意力 文本 自然语言 坐标 编码模块 多模态特征 多尺度特征 特征提取器
系统为您推荐了相关专利信息
1
一种基于多数据源的公共数据平台检索方法及系统
识别标签 文本 检索方法 检索系统 矩阵
2
一种基于文本引导的弱监督图像缺陷分割方法及系统
图像缺陷分割方法 多尺度图像块特征 前景文本 图像分割模型 辅助分类器
3
一种多台协同的大规模数字直播方法及系统
大规模数字直播方法 编码视频流 资源分配 队列算法 数据处理算法
4
融合手势标注的编辑式非自回归手语翻译方法及装置
神经网络模型 手势 手语翻译方法 视觉特征 手语翻译装置
5
基于图片生成文本的方法、图生文模型训练方法、装置、设备、介质和程序产品
图片 图文 文本 模型训练方法 网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号