摘要
本申请公开了一种目标检测方法、装置、设备及存储介质,所述方法包括获取待检测图像的多尺度图像特征和预设提示文本的文本特征;将高级语义图像特征与文本特征进行交互,以得到更新后的高级语义图像特征和更新后的文本特征;基于所述更新后的高级语义图像特征、所述更新后的文本特征和低级语义图像特征,确定多模态融合特征;基于所述多模态融合特征,确定所述待检测图像的检测信息。本申请在获取到多尺度图像特征后,将多尺度图像特征分为高级语义图像特征和低级语义图像特征,然后仅将高级语义图像特征与文本特征进行交互,避免了低级语义图像特征带来的超大的计算量,提高了目标检测的推理速度。
技术关键词
语义
融合特征
图像
文本
多尺度
分辨率
计算机可读程序
多模态特征融合
上采样
可读存储介质
特征提取模块
处理器
参数
注意力
解码模块
终端设备
存储器
系统为您推荐了相关专利信息
高斯模糊图像
保护摄像系统
输出特征
司机
身份验证
多尺度空间约束
跟踪方法
颜色直方图模型
滤波器模型
梯度方向直方图
宽度测量方法
裂缝
手持终端
云端服务器
Canny算法
缺陷智能检测方法
铅封
训练机器学习模型
超声波传播时间
相控阵
语音交互方法
生成回复信息
文本
语音识别模块
语音输入设备