多模态语言模型辅助的类别引导图像分割方法及系统

AITNT
正文
推荐专利
多模态语言模型辅助的类别引导图像分割方法及系统
申请号:CN202510338796
申请日期:2025-03-21
公开号:CN120259660A
公开日期:2025-07-04
类型:发明专利
摘要
本发明公开了多模态语言模型辅助的类别引导图像分割方法及系统,涉及图像处理技术领域,方法包括:通过图像编码器和提示编码器分别提取待分割图像的原始图像特征和用户交互点击特征;利用卷积网络对真值掩码进行编码,与原始图像特征拼接后进行交叉注意力融合,生成掩码图像特征;通过文本编码器提取原始文本特征,并基于对比学习将其与掩码图像特征对齐;将对齐后的文本特征、原始图像特征和交互点击特征输入掩码解码器,经过交叉注意力操作和归一化焦点损失计算,得到分割损失并优化总体训练目标。本发明通过归一化焦点损失和交叉熵损失函数,确保区域级视觉模态与文本模态的精准对齐,显著提升了图像分割任务中的准确性和全面性。
技术关键词
点击特征 图像分割方法 图像编码器 文本编码器 注意力 解码器 焦点 图像分割系统 多模态 双线性插值 特征提取模块 图像处理技术 对齐模块 网络 标签
系统为您推荐了相关专利信息
1
一种干线公路低空基础设施的布局方法
需求预测模型 干线 布局方法 公路 注意力
2
一种基于强化学习的多语言环境翻译语境优化方法
上下文语境信息 路由器 调度算法 信号生成单元 策略更新
3
一种基于SAM引导的解剖级超声医学图像分析方法
超声医学图像 残差网络 分辨率 图像分析 分析方法
4
一种室内移动机器人障碍物检测与地图构建方法
室内移动机器人 地图构建方法 障碍物 语义地图 占据栅格地图
5
一种适用于科学馆的多维交互控制方法及系统
交互控制方法 智能交互控制 项目 交互组件 教学
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号