一种用户意图驱动的可控图像分割与语义捕捉方法

AITNT
正文
推荐专利
一种用户意图驱动的可控图像分割与语义捕捉方法
申请号:CN202510075951
申请日期:2025-01-16
公开号:CN119904868B
公开日期:2025-10-24
类型:发明专利
摘要
本发明公开了一种用户意图驱动的可控图像分割与语义捕捉方法,属于图像内容理解技术领域,包括获取输入图像及用户视觉提示信息;基于输入图像构建场景图并根据用户视觉提示信息将用户意图映射到场景图中,提取意图相关的局部场景图特征;将局部场景图特征以及标注好的双模态数据输入到以双模态Transformer为核心的扩散模型中,生成相关的视觉掩码与文本对;利用多实体对比学习损失对获取的视觉掩码与文本对进行优化对齐。本发明提供的一种用户意图驱动的可控图像分割与语义捕捉方法,解决了现有技术难以捕捉用户意图、分割结果与语义文本结果单一且关联不足、复杂场景多模态输出处理能力有限等问题,大幅提升图像分割精度和语义捕捉的一致性。
技术关键词
捕捉方法 意图 场景 视觉特征 语义 注意力 节点特征 图像分割精度 样本 文本编码器 理解技术 对象 适配器 双模态 网络结构
系统为您推荐了相关专利信息
1
一种基于多智能体强化学习的物流全流程优化系统及其优化方法
多智能体强化学习 智能体模型 强化学习算法 多源异构数据 场景
2
一种车辆运动控制的方法、装置、车辆及可读存储介质
运动控制模型 车辆运动控制 底盘控制系统 计算机程序指令 方向盘
3
基于生成式大语言模型和智能体的软件设计框架和用户指令处理方法
多模态信息 多模态用户界面 软件设计框架 意图 界面组件
4
一种无人装备操控行为模式分析方法
模式分析方法 决策 规划 装备 人体双臂
5
一种文本处理方法、装置及电子设备
文本处理模型 序列 转移概率矩阵 BERT模型 关键词
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号