一种用于无人机视觉语言导航任务的数据增广方法

AITNT
正文
推荐专利
一种用于无人机视觉语言导航任务的数据增广方法
申请号:CN202411599891
申请日期:2024-11-11
公开号:CN119149673B
公开日期:2025-01-10
类型:发明专利
摘要
本发明属于深度学习技术领域,具体公开了一种用于无人机视觉语言导航任务的数据增广方法,包括:确定路径‑动作序列‑视觉观察对;获取路径‑图像特征‑文本特征对;获取合并后的路径‑图像特征‑文本特征对;根据视觉观察和合并后的路径‑图像特征‑文本特征对,构造用于训练投影层的训练数据集;使用训练数据集对投影层进行训练;获取路径‑图像特征嵌入‑文本特征嵌入‑指令描述对;对路径‑图像特征嵌入‑文本特征嵌入‑指令描述对进行筛选,得到增广数据。本发明可以同时利用双尺度图Transformer模型的双尺度视觉表征能力和大语言模型,提高了生成指令的质量。解决了现有技术中生成的自然语言导航指令质量较差的问题。
技术关键词
文本 数据增广方法 图像 结构化自然语言 无人机视觉 微调方法 序列 编码模块 生成模板 启发式搜索算法 视觉特征 编码器 深度学习技术 动态 生成指令
系统为您推荐了相关专利信息
1
糖尿病视网膜病变硬渗出物分割方法及系统
糖尿病视网膜病变 彩色眼底图像 分割方法 对比度 复杂度
2
一种多模态信息映射的视觉语言模型窃取攻击方法及系统
多模态信息 联合损失函数 视觉 数据 模型训练模块
3
一种适用于J型软组织的本构建模方法
胶原纤维 弹性纤维 软组织 组织染色方法 应力
4
一种滤光片快速检测系统及其方法
滤光片 图像工作站 滤波 快速检测系统 氙灯
5
金融风险控制方法、装置、设备、存储介质及程序产品
风险点 金融风险控制方法 计算机执行指令 数据 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号