摘要
本发明公开了一种用户意图驱动的可控图像分割与语义捕捉方法,属于图像内容理解技术领域,包括获取输入图像及用户视觉提示信息;基于输入图像构建场景图并根据用户视觉提示信息将用户意图映射到场景图中,提取意图相关的局部场景图特征;将局部场景图特征以及标注好的双模态数据输入到以双模态Transformer为核心的扩散模型中,生成相关的视觉掩码与文本对;利用多实体对比学习损失对获取的视觉掩码与文本对进行优化对齐。本发明提供的一种用户意图驱动的可控图像分割与语义捕捉方法,解决了现有技术难以捕捉用户意图、分割结果与语义文本结果单一且关联不足、复杂场景多模态输出处理能力有限等问题,大幅提升图像分割精度和语义捕捉的一致性。
技术关键词
捕捉方法
意图
场景
视觉特征
语义
注意力
节点特征
图像分割精度
样本
文本编码器
理解技术
对象
适配器
双模态
网络结构
系统为您推荐了相关专利信息
多智能体强化学习
智能体模型
强化学习算法
多源异构数据
场景
运动控制模型
车辆运动控制
底盘控制系统
计算机程序指令
方向盘
多模态信息
多模态用户界面
软件设计框架
意图
界面组件
文本处理模型
序列
转移概率矩阵
BERT模型
关键词