一种用户意图驱动的可控图像分割与语义捕捉方法

正文

推荐专利

申请号：CN202510075951

申请日期：2025-01-16

公开号：CN119904868B

公开日期：2025-10-24

类型：发明专利

摘要

本发明公开了一种用户意图驱动的可控图像分割与语义捕捉方法，属于图像内容理解技术领域，包括获取输入图像及用户视觉提示信息；基于输入图像构建场景图并根据用户视觉提示信息将用户意图映射到场景图中，提取意图相关的局部场景图特征；将局部场景图特征以及标注好的双模态数据输入到以双模态Transformer为核心的扩散模型中，生成相关的视觉掩码与文本对；利用多实体对比学习损失对获取的视觉掩码与文本对进行优化对齐。本发明提供的一种用户意图驱动的可控图像分割与语义捕捉方法，解决了现有技术难以捕捉用户意图、分割结果与语义文本结果单一且关联不足、复杂场景多模态输出处理能力有限等问题，大幅提升图像分割精度和语义捕捉的一致性。

技术关键词

捕捉方法意图场景视觉特征语义注意力节点特征图像分割精度样本文本编码器理解技术对象适配器双模态网络结构

系统为您推荐了相关专利信息

一种基于多智能体强化学习的物流全流程优化系统及其优化方法

多智能体强化学习智能体模型强化学习算法多源异构数据场景

一种车辆运动控制的方法、装置、车辆及可读存储介质

运动控制模型车辆运动控制底盘控制系统计算机程序指令方向盘

基于生成式大语言模型和智能体的软件设计框架和用户指令处理方法

多模态信息多模态用户界面软件设计框架意图界面组件

一种无人装备操控行为模式分析方法

模式分析方法决策规划装备人体双臂

一种文本处理方法、装置及电子设备

文本处理模型序列转移概率矩阵 BERT模型关键词

一种用户意图驱动的可控图像分割与语义捕捉方法

站点导航

APP 下载