一种基于多模态大模型的无人机视觉检索与指令反馈方法

正文

推荐专利

申请号：CN202510458867

申请日期：2025-04-14

公开号：CN120298933A

公开日期：2025-07-11

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的无人机视觉检索与指令反馈方法，涉及无人机结合大模型智能感知技术领域。所述方法包括：将预处理得到的航拍图像输入CLIP(Contrastive Language‑Image Pretraining)模型的视觉编码器生成高维特征向量，同时基于任务相关的文本描述生成文本特征向量；通过CLIP多模态对齐技术对图像和文本特征进行匹配，评估其相关性；结合时间图像序列和任务上下文，采用Transformer架构对数据进行上下文分析和语义理解；通过T5(Text‑to‑Text Transfer Transformer)模型根据任务目标生成初始文本指令，并基于图像语义信息与上下文动态优化生成精准的操作指令。本发明实现了无人机对复杂环境视觉数据的高效理解和精准操作指令的自动生成，具备智能化、动态适应性和高精度的优点，适用于无人机的任务规划与执行。

技术关键词

指令反馈方法无人机视觉多模态文本特征向量无人机控制系统高维特征向量深度神经网络准确识别图像高分辨率摄像头智能感知技术图像序列数据深度学习架构高层语义信息视觉特征 YOLO模型

系统为您推荐了相关专利信息

基于OCR和大模型结构化PDF文件的方法

文本大语言模型节点特征页面图片多模态

一种文明行为数据驱动的数字积分评估方法及系统

社交媒体平台多模态特征融合项目数据处理模块数据采集模块

一种多源异构数据融合的遥感地图动态数据库构建方法及其系统

语义特征多源异构数据融合遥感时间序列数据动态数据库时序

基于多模态LIBS矿物氧元素分析方法

元素分析方法深度学习模型多模态混合专家网络改进型梯度

一种针对高精度全自动定心仪的智能校准系统

智能校准系统时空注意力机制多模态数据融合闭环反馈系统矩阵

一种基于多模态大模型的无人机视觉检索与指令反馈方法

站点导航

APP 下载