摘要
本发明提供一种目标检测方法、装置、设备、存储介质和计算机程序产品,涉及人工智能技术领域,该方法包括:获取待检测文本和待检测图像;将待检测文本和待检测图像输入开集目标检测模型,得到开集目标检测模型输出的检测结果;其中,开集目标检测模型包括图像信息与文本信息的混合模块,混合模块包括多层多头自注意力机制和多层基于类别引导的多头交叉注意力机制,混合模块用于对第一图像类别特征向量与待检测文本的文本特征进行增强,得到第一强化文本特征。本发明通过在开集目标检测模型中引入混合模块,将图像类别特征向量与文本特征相结合,使文本特征带有图像语义信息,从而减少语义歧义带来的影响,提高模型的零样本和少样本推理能力。
技术关键词
图像类别
混合模块
文本
交叉注意力机制
标签类别
计算机程序产品
非暂态计算机可读存储介质
图像编码
编码模块
处理器
坐标
样本
人工智能技术
数据
语义
列表
系统为您推荐了相关专利信息
LSTM模型
长短期记忆模型
对话系统
对话方法
序列