一种用于无人机视觉语言导航任务的数据增广方法

正文

推荐专利

申请号：CN202411599891

申请日期：2024-11-11

公开号：CN119149673B

公开日期：2025-01-10

类型：发明专利

摘要

本发明属于深度学习技术领域，具体公开了一种用于无人机视觉语言导航任务的数据增广方法，包括：确定路径‑动作序列‑视觉观察对；获取路径‑图像特征‑文本特征对；获取合并后的路径‑图像特征‑文本特征对；根据视觉观察和合并后的路径‑图像特征‑文本特征对，构造用于训练投影层的训练数据集；使用训练数据集对投影层进行训练；获取路径‑图像特征嵌入‑文本特征嵌入‑指令描述对；对路径‑图像特征嵌入‑文本特征嵌入‑指令描述对进行筛选，得到增广数据。本发明可以同时利用双尺度图Transformer模型的双尺度视觉表征能力和大语言模型，提高了生成指令的质量。解决了现有技术中生成的自然语言导航指令质量较差的问题。

技术关键词

文本数据增广方法图像结构化自然语言无人机视觉微调方法序列编码模块生成模板启发式搜索算法视觉特征编码器深度学习技术动态生成指令

系统为您推荐了相关专利信息

糖尿病视网膜病变硬渗出物分割方法及系统

糖尿病视网膜病变彩色眼底图像分割方法对比度复杂度

一种多模态信息映射的视觉语言模型窃取攻击方法及系统

多模态信息联合损失函数视觉数据模型训练模块

一种适用于J型软组织的本构建模方法

胶原纤维弹性纤维软组织组织染色方法应力

一种滤光片快速检测系统及其方法

滤光片图像工作站滤波快速检测系统氙灯

金融风险控制方法、装置、设备、存储介质及程序产品

风险点金融风险控制方法计算机执行指令数据多模态

一种用于无人机视觉语言导航任务的数据增广方法

站点导航

APP 下载