通用视觉目标定位方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202510626223

申请日期：2025-05-15

公开号：CN120578778A

公开日期：2025-09-02

类型：发明专利

摘要

本发明涉及一种通用视觉目标定位方法、装置、电子设备及存储介质，属于图像识别技术领域，其中，该通用视觉目标定位方法包括：获取包含待定位目标对象的待识别图像和用于描述待定位目标对象的文本信息；采用特征提取模块提取文本信息的语言特征，并基于语言特征提取待识别图像的视觉特征；采用自适应跨模态解码模块对语言特征和视觉特征进行解码，得到待定位目标对象的目标查询特征；采用目标定位模块基于目标查询特征在待识别图像中定位待定位目标对象。本发明在提取视觉特征时，在语言信息的引导下调整特征映射，使得模型能够更灵活地提取与目标对象相关的上下文信息，视觉定位更加准确。

技术关键词

查询特征跨模态定位方法解码模块特征提取模块对象定位模块上下文特征视觉特征提取神经网络模型文本降维特征注意力机制多尺度子模块前馈神经网络图像识别技术

通用视觉目标定位方法、装置、电子设备及存储介质

站点导航

APP 下载