一种基于图像检测自然语言描述目标的方法及电子设备

正文

推荐专利

申请号：CN202510469031

申请日期：2025-04-15

公开号：CN120032149B

公开日期：2025-07-11

类型：发明专利

摘要

本申请公开了一种基于图像检测自然语言描述目标的方法，包括：将待检测图像输入至已训练的用于将输入图像转换为具有图像详细描述数据并对图像详细描述数据中的文本实例进行定位描述的详细定位描述数据的专家模型，通过专家模型的推理，得到详细定位描述数据，详细定位描述数据包括：图像详细描述数据、以及与图像详细描述数据中的文本实例相对应的图像实例描述数据，利用待检测图像的详细定位描述数据，获取待检测图像中与文本实例所表征的自然语言描述目标相匹配的候选目标。本申请有利于提高自然语言所描述目标检测的准确性。

技术关键词

数据图像多模态自然语言样本文本大语言模型代表标签电子设备存储器感兴趣处理器

数据拟合模型时序预测方法变量融合特征多头注意力机制

用于二分图像分割的高分辨率数据合成方法和设备

图像分割编辑生成器网络边缘检测算子生成方法

一种基于多视图时空融合的水面3D目标检测方法

图像嵌入图像编码注意力图像块相机设备

一种基于小波频域异构增强的遥感图像去雾网络的构建方法

遥感图像去雾异构有雾图像高频特征输出特征

基于位置编码的帧内跨分量色度预测

样本亮度融合特征边界特征坐标

一种基于图像检测自然语言描述目标的方法及电子设备

站点导航

APP 下载