摘要
本发明公开了多模态语言模型辅助的类别引导图像分割方法及系统,涉及图像处理技术领域,方法包括:通过图像编码器和提示编码器分别提取待分割图像的原始图像特征和用户交互点击特征;利用卷积网络对真值掩码进行编码,与原始图像特征拼接后进行交叉注意力融合,生成掩码图像特征;通过文本编码器提取原始文本特征,并基于对比学习将其与掩码图像特征对齐;将对齐后的文本特征、原始图像特征和交互点击特征输入掩码解码器,经过交叉注意力操作和归一化焦点损失计算,得到分割损失并优化总体训练目标。本发明通过归一化焦点损失和交叉熵损失函数,确保区域级视觉模态与文本模态的精准对齐,显著提升了图像分割任务中的准确性和全面性。
技术关键词
点击特征
图像分割方法
图像编码器
文本编码器
注意力
解码器
焦点
图像分割系统
多模态
双线性插值
特征提取模块
图像处理技术
对齐模块
网络
标签
系统为您推荐了相关专利信息
上下文语境信息
路由器
调度算法
信号生成单元
策略更新
超声医学图像
残差网络
分辨率
图像分析
分析方法
室内移动机器人
地图构建方法
障碍物
语义地图
占据栅格地图