摘要
本发明属于人工智能技术领域,公开一种基于语义和细节协作的弱监督指向性分割方法。首先利用两个基于Transformer的编码器分别提取输入图像和文本的特征,然后将两种特征输入到语义感知模块和细节认知模块。两个模块分别关注高级语义和低级细节并用于一个协作学习策略,该策略整合了跨模态内部损失、匹配不变性损失和区域对比损失进而实现充分的视觉语言对齐。语义感知模块和细节认知模块分别生成一个激活图,随后激活图由一个协作模块进行整合,以输出准确的分割掩码。本发明仅使用图像文本对监督模型的训练,不依赖于密集的像素级标签,在显著减少人工标注成本的同时实现了良好的自然语言指示的图像分割性能。
技术关键词
跨模态
语义
分割方法
模态特征
文本编码器
图像编码器
文本生成方法
模块
自然语言
映射技术
注意力
文本解析器
上采样技术
负面文本
网络结构
图像块
赋值方法
多层感知器
系统为您推荐了相关专利信息
语义知识图谱
动态优化方法
生成访问控制策略
大语言模型
访问控制列表
地基云图
分割方法
语义分割网络
纹理特征
双光谱成像系统
路径构建方法
计算机可执行指令
项目
会话
服务端