摘要
本发明涉及图像分割技术领域,提供一种基于双模态交互的指代图像分割方法,通过获取待分割图像、以及待分割图像对应的文本描述,将待分割图像以及文本描述输入至训练好的指代图像分割模型中,通过图像与文本编码模块提取图像特征与文本特征,图像与文本交互引导模块进行图像信息与文本语义信息的对齐与交互引导处理,提取图像与文本之间的交互特征,以此充分融合文本描述的文本语义信息,通过图像与文本解码模块解码交互特征,以此定位待分割图像中包含的指代目标,从而获取待分割图像的指代目标分割结果。由于通过图像与文本交互引导模块能够针对图像特征,充分融合文本描述的文本语义信息,从而提高对待分割图像的指代目标分割效果。
技术关键词
文本
交互特征
图像分割模型
编码模块
图像分割方法
解码模块
双模态
语义
子模块
定位待分割
图像编码
图像分割装置
图像分割技术
训练集
处理器
样本
可读存储介质