摘要
本发明提供一种基于图像文本语义对齐的零样本目标检测方法及应用,构建描述数据集的语料库,将数据集输入网络模型的视觉分支,获得视觉特征并映射到语义空间,与文本分支的动态语义向量对齐;将语料库输入到ELMo模型中预训练,并对语料库中的多义词区分,得到动态语义向量;设定损失函数,利用分类层将视觉特征映射到语义特征空间;利用分类层得到的视觉‑语义对应结果,对数据集中的未知类进行目标检测;方法应用于在零样本情境下实现目标检测。本发明使模型对于图像中未见过的物体类别进行检测,得到的文本语义准确性提高,通过两个网络分支完成对未知类的识别,提高对于未知类的视觉语义对齐准确性,以达到对未知类更好的分类检测准确度。
技术关键词
视觉特征
语义向量
文本
样本
嵌入特征
分支
多特征加权融合
图像
多义词
语义特征
LSTM模型
动态
数据
网络
索引
输出端
香草
坐标
系统为您推荐了相关专利信息
快速原型
特征提取网络
训练神经网络
样本
识别方法
融合语义
多模态数据融合
音频编码器
文本编码器
图像编码器
智能告警方法
预训练语言模型
文本
门控循环单元
深度学习模型
钓鱼网页检测方法
字符
高维向量空间
文本
语义特征