基于跨模态语义协同增强的交互式图像分割方法和交互式图像分割装置

AITNT
正文
推荐专利
基于跨模态语义协同增强的交互式图像分割方法和交互式图像分割装置
申请号:CN202510926967
申请日期:2025-07-07
公开号:CN120852771A
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种基于跨模态语义协同增强的交互式图像分割方法,包括以下步骤:S1.获取输入图像、用户点击和先前的分割掩码,融合文本标签,生成跨模态提示输入;S2.通过对比损失将用户点击特征与文本标签语义在同一特征空间对齐,给用户点击赋予类别语义信息;S3.双向协同注意力计算,计算图像提示与提示到图像的双向注意力,挖掘图像与提示共同语义;S4.拼接双向注意力融合跨模态特征,增强目标类别在视觉特征中的表达;S5.利用判断性损失与归一化焦点损失,扩大前景-背景特征差异并优化难例分类;S6.根据分割结果与新增点击迭代优化直至满足精度要求,减少用户点击次数提升精度。一种交互式图像分割装置,用于执行交互式图像分割方法。本发明基于跨模态语义协同增强的交互式图像分割方法和交互式图像分割装置,跨模态语义融合提升分割精度与鲁棒性,交互效率提升,减少用户操作负担,特征判别性增强,适应多场景泛化。
技术关键词
语义协同 交互式图像分割 跨模态 双向注意力 协同注意力 标签文本 多层感知机 点击特征 视觉特征 语义特征 损失函数优化 输入设备 精度 文本编码器
系统为您推荐了相关专利信息
1
一种基于深度学习的毫米波SAR覆冰厚度反演算法
反演算法 后向散射特性 SAR传感器 深度神经网络结构 约束优化模型
2
基于多模态时空特征融合的异常机动动作检测与识别方法
动作识别模型 BP神经网络模型 多模态 识别方法 动作特征
3
一种用于乳腺癌的护理决策系统
多模态数据采集 空间点云数据 聚类特征 决策系统 拉普拉斯
4
一种足球守门员点球扑救实时训练方法、系统及装置
足球 可视化方式 动作捕捉传感器 训练系统 动作特征
5
一种基于动态语义元体驱动的小样本事件检测方法
事件检测方法 句法结构 条件随机场 节点 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号