一种基于多模态大模型的无人机视觉检索与指令反馈方法

AITNT
正文
推荐专利
一种基于多模态大模型的无人机视觉检索与指令反馈方法
申请号:CN202510458867
申请日期:2025-04-14
公开号:CN120298933A
公开日期:2025-07-11
类型:发明专利
摘要
本发明公开了一种基于多模态大模型的无人机视觉检索与指令反馈方法,涉及无人机结合大模型智能感知技术领域。所述方法包括:将预处理得到的航拍图像输入CLIP(Contrastive Language‑Image Pretraining)模型的视觉编码器生成高维特征向量,同时基于任务相关的文本描述生成文本特征向量;通过CLIP多模态对齐技术对图像和文本特征进行匹配,评估其相关性;结合时间图像序列和任务上下文,采用Transformer架构对数据进行上下文分析和语义理解;通过T5(Text‑to‑Text Transfer Transformer)模型根据任务目标生成初始文本指令,并基于图像语义信息与上下文动态优化生成精准的操作指令。本发明实现了无人机对复杂环境视觉数据的高效理解和精准操作指令的自动生成,具备智能化、动态适应性和高精度的优点,适用于无人机的任务规划与执行。
技术关键词
指令反馈方法 无人机视觉 多模态 文本特征向量 无人机控制系统 高维特征向量 深度神经网络 准确识别图像 高分辨率摄像头 智能感知技术 图像序列数据 深度学习架构 高层语义信息 视觉特征 YOLO模型
系统为您推荐了相关专利信息
1
基于OCR和大模型结构化PDF文件的方法
文本 大语言模型 节点特征 页面图片 多模态
2
一种文明行为数据驱动的数字积分评估方法及系统
社交媒体平台 多模态特征融合 项目 数据处理模块 数据采集模块
3
一种多源异构数据融合的遥感地图动态数据库构建方法及其系统
语义特征 多源异构数据融合 遥感时间序列数据 动态数据库 时序
4
基于多模态LIBS矿物氧元素分析方法
元素分析方法 深度学习模型 多模态 混合专家网络 改进型梯度
5
一种针对高精度全自动定心仪的智能校准系统
智能校准系统 时空注意力机制 多模态数据融合 闭环反馈系统 矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号