摘要
本发明涉及计算机视觉技术领域,提供一种多标签图像识别方法、装置、电子设备和存储介质,其中方法包括:对待识别图像和各候选文本标签进行特征提取,得到待识别图像的图像特征以及各候选文本标签的文本特征;利用大语言模型组件对图像特征进行特征迁移,并对迁移后的图像特征进行适配;根据适配后的图像特征和各候选文本标签的文本特征,确定待识别图像对应的多个目标文本标签。本发明通过引入大语言模型组件、构建特征增强和适配模块,实现了跨模态的知识迁移与增强,显著提升了多标签图像识别的准确性和鲁棒性。
技术关键词
图像识别模型
多标签
图像识别方法
图像全局特征
图像局部特征
编码模块
图像块
图像嵌入
非暂态计算机可读存储介质
大语言模型
图像识别装置
计算机视觉技术
文本编码器
图像编码器
电子设备
系统为您推荐了相关专利信息
模型训练系统
二值化图像
图像识别设备
样本
模型训练模块
停机坪
定位标记
轮廓识别
训练图像识别模型
图像采集单元
面部图像识别方法
面部特征
面部识别模型
真实面部
计算机可读指令
物体
导航方法
多头注意力机制
关系
残差神经网络