一种基于图像文本语义对齐的零样本目标检测方法及应用

正文

推荐专利

申请号：CN202411744699

申请日期：2024-12-01

公开号：CN119963798A

公开日期：2025-05-09

类型：发明专利

摘要

本发明提供一种基于图像文本语义对齐的零样本目标检测方法及应用，构建描述数据集的语料库，将数据集输入网络模型的视觉分支，获得视觉特征并映射到语义空间，与文本分支的动态语义向量对齐；将语料库输入到ELMo模型中预训练，并对语料库中的多义词区分，得到动态语义向量；设定损失函数，利用分类层将视觉特征映射到语义特征空间；利用分类层得到的视觉‑语义对应结果，对数据集中的未知类进行目标检测；方法应用于在零样本情境下实现目标检测。本发明使模型对于图像中未见过的物体类别进行检测，得到的文本语义准确性提高，通过两个网络分支完成对未知类的识别，提高对于未知类的视觉语义对齐准确性，以达到对未知类更好的分类检测准确度。

技术关键词

视觉特征语义向量文本样本嵌入特征分支多特征加权融合图像多义词语义特征 LSTM模型动态数据网络索引输出端香草坐标

系统为您推荐了相关专利信息

基于快速原型优化的高分辨率距离像目标识别方法

快速原型特征提取网络训练神经网络样本识别方法

基于多模态数据融合的互联网信息分析方法

融合语义多模态数据融合音频编码器文本编码器图像编码器

一种基于预训练语言模型的电网监控信息智能告警方法、系统、计算机设备及储存介质

智能告警方法预训练语言模型文本门控循环单元深度学习模型

一种融合URL字符和HTML内容语义的钓鱼网页检测方法

钓鱼网页检测方法字符高维向量空间文本语义特征

一种生成参数化模型的方法、装置、介质及程序产品

生成参数文本自然语言实体数据

一种基于图像文本语义对齐的零样本目标检测方法及应用

站点导航

APP 下载