摘要
本发明公开了一种基于跨模态深度学习的多目标图像分割方法,包括以下步骤:(1)采集黄瓜图像数据和文本数据并进行预处理;(2)利用基于卷积神经网络模型的DeepLab v3中的编码器提取输入图像的特征,利用递归神经网络模型长短时记忆网络LSTM提取输入文本特征;(3)选取无监督掩码生成器FreeSOLO获取输入图像中所有目标的掩码候选区域,并采用逐元素相乘法,获取每个掩码的视觉特征;(4)处理掩码视觉特征与文本特征,获得对应的特征序列,采用跨模态注意力机制计算图像序列与文本序列间的相似度获得注意力权重;(5)在注意力机制输出的融合掩码特征后设置“激活门”;利用过滤器筛选出被激活的掩码候选区域并采用聚合器进行聚合;(6)将聚合获得的掩码与提取的视觉特征融合,输入到长短时记忆网络中进行文本重构;(7)输出结果;本发明可以得到比较准确的多目标分割结果。
技术关键词
图像分割方法
跨模态
文本
注意力机制
递归神经网络模型
卷积神经网络模型
查询重构
视觉特征编码
元素
无监督
序列
过滤器
矩阵
代表
处理器
系统为您推荐了相关专利信息
多模态数据融合
智能座舱
多模态特征融合
多视角
深度图像数据
BERT模型
关键词提取方法
关键词提取模型
交叉注意力机制
序列
网络健康度
网络设备
信号
Softmax函数
序列