一种基于跨模态深度学习的多目标图像分割方法

正文

推荐专利

申请号：CN202411632220

申请日期：2024-11-15

公开号：CN119672331B

公开日期：2025-12-05

类型：发明专利

摘要

本发明公开了一种基于跨模态深度学习的多目标图像分割方法，包括以下步骤：(1)采集黄瓜图像数据和文本数据并进行预处理；(2)利用基于卷积神经网络模型的DeepLab v3中的编码器提取输入图像的特征，利用递归神经网络模型长短时记忆网络LSTM提取输入文本特征；(3)选取无监督掩码生成器FreeSOLO获取输入图像中所有目标的掩码候选区域，并采用逐元素相乘法，获取每个掩码的视觉特征；(4)处理掩码视觉特征与文本特征，获得对应的特征序列，采用跨模态注意力机制计算图像序列与文本序列间的相似度获得注意力权重；(5)在注意力机制输出的融合掩码特征后设置“激活门”；利用过滤器筛选出被激活的掩码候选区域并采用聚合器进行聚合；(6)将聚合获得的掩码与提取的视觉特征融合，输入到长短时记忆网络中进行文本重构；(7)输出结果；本发明可以得到比较准确的多目标分割结果。

技术关键词

图像分割方法跨模态文本注意力机制递归神经网络模型卷积神经网络模型查询重构视觉特征编码元素无监督序列过滤器矩阵代表处理器

系统为您推荐了相关专利信息

基于多模态数据融合与分析的智能座舱分析方法及系统

多模态数据融合智能座舱多模态特征融合多视角深度图像数据

一种领域中文语言预训练模型构建的方法

训练文本数据预训练模型关系实体序列

基于跨模态提示学习的工业零样本异常检测方法及系统

异常检测方法跨模态样本点云损失函数优化

基于BERT模型和关键词提取的法律判决预测方法

BERT模型关键词提取方法关键词提取模型交叉注意力机制序列

一种算力网络的健康度感知与预测系统

网络健康度网络设备信号 Softmax函数序列

一种基于跨模态深度学习的多目标图像分割方法

站点导航

APP 下载