摘要
本发明涉及图像处理技术领域,公开基于持续学习的开放词汇多任务图像分类方法,包括步骤:对原始图像数据进行预处理得到对应的文本信息,将文本信息输入文本编码器,得到文本特征;将原始图像数据输入图像编码器,得到图像特征;将文本特征和图像特征共同输入引导注意力模块,对图像特征进行加权整合,得到多模态特征;将多模态特征输入随机投影模块进行随机投影,通过非线性激活函数得到激活特征;通过预测模块对每个类别的激活特征取均值生成类原型向量,将非线性激活函数输入到Gram矩阵,得到图像类别。本发明对图像编码器的微调增分类强模型的特征提取能力,引入引导注意力模块实现图文特征的深度融合,提升了对关键语义特征的识别能力。
技术关键词
原始图像数据
图像编码器
图像分类方法
文本编码器
多任务
图像块
注意力
非线性
编码块
投影模块
原型
矩阵
序列
特征提取能力
多模态特征
系统为您推荐了相关专利信息
药物残留检测方法
递归神经网络
卷积特征
抗体
预处理图像数据
语义标签
语义分割方法
语义分割模型
语义特征
图像分割模型
导航系统
数据特征提取
电磁干扰数据
时序
高维特征向量
多模态传感器
数字孪生模型
合规性
监测方法
推理网络