摘要
本发明公开了一种掩码感知的高效开放词汇图像识别方法、系统及可读存储介质,包括:对预训练模型进行剪枝,得到稀疏图像编码器的骨干网络;引入掩码感知策略,将掩码提议作为注意力偏置添加到骨干网络的多头注意力模块;评估稀疏图像编码器的权重质量,通过分析在权重谱中的重尾行为确定训练不足的层,仅更新训练不足的层,保持其它层冻结;将图像输入到稀疏图像编码器和SAM图像编码器,得到两种图像特征后进行融合,得到融合图像特征;利用文本编码器对待识别的类别名称进行特征表示,获取文本特征;计算文本特征和融合图像特征的余弦相似度得到分类预测;结合掩码提议获得最终图像识别结果。利用本发明,可以减少掩码分类误报且降低计算成本。
技术关键词
图像识别方法
图像编码器
融合图像特征
注意力
文本编码器
图像识别系统
网络
预训练模型
策略
处理器
可读存储介质
存储器
程序
语义
蒸馏
模块
计算机
系统为您推荐了相关专利信息
反演模型
雷达散射截面
参数反演方法
飞机模型
注意力
天气预报数据
特征值
频率
风电场功率预测
非平稳数据
面部语义特征
注意力
结构特征提取
样本
语义特征提取
裂殖壶菌发酵
YOLO模型
计算机设备
体细胞
全局平均池化