摘要
本发明涉及深度学习计算机视觉技术等领域,公开了一种基于D‑GCN和目标检测网络yolov5的多标签图像分类方法,用目标检测的方法精准地提取图像各个类别的视觉特征,并且提出了一种语义解耦方法,将词向量和图像特征进行多模态融合,生成图的节点,包括下述步骤:使用ResNet101模型对输入图像进行特征提取,经过一个最大池化层和一个全连接层进行分类,得到第一组置信分数;使用预训练的yolov5对输入的图像进行目标检测,然后对于网络检测出的边框进行汇总,统计各个类别的边框,计算得到第二组置信分数;对于每个类别,将图像按照检测出的边框裁剪出来,并使用ResNet101模型对每张剪裁出的图像进行特征提取,生成tensor向量,最后求得加权平均值特征向量。
技术关键词
图像分类方法
网络
深度学习计算机视觉
双线性池化
注意力
sigmoid函数
融合视觉特征
多模态
融合特征
双曲正切函数
全局平均池化
解耦方法
二分类器
节点
矩阵
多标签
系统为您推荐了相关专利信息
分布式计算框架
分块
关键帧
网络传输开销
NTP服务器
水泵站系统调度
调水工程
构建机器学习模型
长短期记忆网络
泵站运行状态
温度控制方法
深度神经网络
PID控制参数
模糊推理
热压
误差抑制方法
深度学习网络模型
纹理特征
数据
点云