一种多模态目标检测方法、装置、终端及储存介质

正文

推荐专利

申请号：CN202510807532

申请日期：2025-06-17

公开号：CN120318503B

公开日期：2025-09-02

类型：发明专利

摘要

本发明公开了目标检测技术领域的一种多模态目标检测方法、装置、终端及储存介质，旨在解决现有技术通常存在依赖标注数据、视觉骨干多样性不足的问题，且训练成本较高的问题。其包括以下步骤：获取目标图像；将目标图像输入至预训练好的多模态目标检测模型，输出定位及分类预测结果，完成检测；本发明首次在目标检测任务中引入UNet网络作为视觉骨干网络，突破了传统有监督和无监督方法的局限性，为目标检测任务提供了全新的特征表示方式；本发明利用多模态目标检测模型的自监督学习能力，减少了对大量标注数据的依赖，降低了训练成本，同时提升了模型在数据稀缺场景下的适用性。

技术关键词

多模态编码器注意力文本多尺度特征融合区域生成网络图片检测头特征提取模块子模块图像编码通道处理器输入模块定位模块终端

一种多模态目标检测方法、装置、终端及储存介质

站点导航

APP 下载