摘要
本申请公开了一种基于图像检测自然语言描述目标的方法,包括:将待检测图像输入至已训练的用于将输入图像转换为具有图像详细描述数据并对图像详细描述数据中的文本实例进行定位描述的详细定位描述数据的专家模型,通过专家模型的推理,得到详细定位描述数据,详细定位描述数据包括:图像详细描述数据、以及与图像详细描述数据中的文本实例相对应的图像实例描述数据,利用待检测图像的详细定位描述数据,获取待检测图像中与文本实例所表征的自然语言描述目标相匹配的候选目标。本申请有利于提高自然语言所描述目标检测的准确性。
技术关键词
数据
图像
多模态
自然语言
样本
文本
大语言模型
代表
标签
电子设备
存储器
感兴趣
处理器
系统为您推荐了相关专利信息
数据拟合模型
时序预测方法
变量
融合特征
多头注意力机制
图像分割
编辑
生成器网络
边缘检测算子
生成方法