多模态语言模型辅助的类别引导图像分割方法及系统

正文

推荐专利

申请号：CN202510338796

申请日期：2025-03-21

公开号：CN120259660A

公开日期：2025-07-04

类型：发明专利

摘要

本发明公开了多模态语言模型辅助的类别引导图像分割方法及系统，涉及图像处理技术领域，方法包括：通过图像编码器和提示编码器分别提取待分割图像的原始图像特征和用户交互点击特征；利用卷积网络对真值掩码进行编码，与原始图像特征拼接后进行交叉注意力融合，生成掩码图像特征；通过文本编码器提取原始文本特征，并基于对比学习将其与掩码图像特征对齐；将对齐后的文本特征、原始图像特征和交互点击特征输入掩码解码器，经过交叉注意力操作和归一化焦点损失计算，得到分割损失并优化总体训练目标。本发明通过归一化焦点损失和交叉熵损失函数，确保区域级视觉模态与文本模态的精准对齐，显著提升了图像分割任务中的准确性和全面性。

技术关键词

点击特征图像分割方法图像编码器文本编码器注意力解码器焦点图像分割系统多模态双线性插值特征提取模块图像处理技术对齐模块网络标签

系统为您推荐了相关专利信息

一种干线公路低空基础设施的布局方法

需求预测模型干线布局方法公路注意力

一种基于强化学习的多语言环境翻译语境优化方法

上下文语境信息路由器调度算法信号生成单元策略更新

一种基于SAM引导的解剖级超声医学图像分析方法

超声医学图像残差网络分辨率图像分析分析方法

一种室内移动机器人障碍物检测与地图构建方法

室内移动机器人地图构建方法障碍物语义地图占据栅格地图

一种适用于科学馆的多维交互控制方法及系统

交互控制方法智能交互控制项目交互组件教学

多模态语言模型辅助的类别引导图像分割方法及系统

站点导航

APP 下载