摘要
本申请公开了一种图像理解方法、装置、设备及存储介质,所述方法包括获取待理解图像以及任务令牌;获取所述待理解图像的多尺度图像特征、多尺度图像编码特征以及目标区域位置信息;基于所述多尺度图像特征和所述目标区域位置信息确定局部细粒度图像特征,并基于所述多尺度图像编码特征和所述目标区域位置信息确定语义特征;基于所述语义特征、所述局部细粒度图像特征以及所述任务令牌,确定所述待理解图像的任务处理结果。本申请通过以目标区域位置信息作为区域指示信息,集中对目标区域位置信息对应的局部区域图像进行局部理解,提高了局部区域图像的理解准确性,进而可以提高任务处理结果的准确性。
技术关键词
区域位置信息
图像理解方法
编码向量
多尺度
语义特征
图像编码
令牌
局部图像特征
计算机可读程序
编码器
特征提取器
解码器
注意力
文本
可读存储介质
模块
处理器
终端设备