摘要
本发明公开了一种视觉语言融合的无人机航拍图像开放词汇语义分割方法,其涉及多模态人工智能技术领域。本方法基于多种注意力机制、多层次融合模块、动态调整机制,构建了视觉语言融合分割模型,确保了复杂场景下对已知与未知类别的航拍图像实现高精度、鲁棒性的分割效果;利用VIT、Mamba模型提取全局图像信息、局部图像细节,并采用自适应加权融合实现全局与局部特征的动态平衡,使用可变形卷积对局部结构进行强化,保证整体场景语义的准确表达;利用异构跨模态图融合模型整合更远距离的跨模态语义关系,不断融合来自视觉、文本以及领域知识的多维信息。
技术关键词
无人机航拍图像
语义分割方法
训练特征
语义分割模型
三元组损失函数
视觉特征提取
跨模态
解码模块
特征提取模型
注意力机制
多尺度
异构
全局特征提取
文本
多层次
节点
系统为您推荐了相关专利信息
SLAM方法
视觉特征提取
分层特征
鲁棒性
多尺度特征融合
工业控制系统
三元组损失函数
字段
工控协议
样本
智能问答方法
门控循环神经网络
门控循环单元
三元组损失函数
排序损失
图像语义分割方法
特征提取模块
通道
上采样
状态空间模型