摘要
本发明属于深度学习技术领域,具体公开了一种用于无人机视觉语言导航任务的数据增广方法,包括:确定路径‑动作序列‑视觉观察对;获取路径‑图像特征‑文本特征对;获取合并后的路径‑图像特征‑文本特征对;根据视觉观察和合并后的路径‑图像特征‑文本特征对,构造用于训练投影层的训练数据集;使用训练数据集对投影层进行训练;获取路径‑图像特征嵌入‑文本特征嵌入‑指令描述对;对路径‑图像特征嵌入‑文本特征嵌入‑指令描述对进行筛选,得到增广数据。本发明可以同时利用双尺度图Transformer模型的双尺度视觉表征能力和大语言模型,提高了生成指令的质量。解决了现有技术中生成的自然语言导航指令质量较差的问题。
技术关键词
文本
数据增广方法
图像
结构化自然语言
无人机视觉
微调方法
序列
编码模块
生成模板
启发式搜索算法
视觉特征
编码器
深度学习技术
动态
生成指令
系统为您推荐了相关专利信息
糖尿病视网膜病变
彩色眼底图像
分割方法
对比度
复杂度
多模态信息
联合损失函数
视觉
数据
模型训练模块
风险点
金融风险控制方法
计算机执行指令
数据
多模态