摘要
本发明为基于语义引导的多标签识别跨模态表示系统及方法,属于人工智能领域。该系统由特征编码器、图注意力网络、视觉语言特征重建模块、视觉‑语义特征匹配模块、多标签预测模块构成。该方法包含以下步骤:S1:采集图像和文本数据;S2:文本特征编码器和图像特征编码器提取图像特征和文本特征;S3:对文本特征进行多标签之间的语义关联增强;S4:对图像特征和文本特征进行融合;S5:对融合特征和改进文本特征进行融合;S6:视觉‑语义特征匹配模块对齐重建融合特征与文本特征,计算余弦相似度;S7:利用多标签分类器对匹配余弦相似度进行分类,得到图像对应的多分类标签。本发明方法能够有效地在开放场景中进行多标签识别,提高预测准确性。
技术关键词
编码器
跨模态
融合特征
图像
语义特征
匹配模块
视觉特征
多标签分类器
矩阵
注意力机制
文本特征向量
双曲正切函数
深度学习网络
系统为您推荐了相关专利信息
智能测绘系统
图像处理模型
数据分析模块
智能识别模块
集成模块
农药包装
分拣识别系统
图像处理模块
高清工业相机
图像采集模块
图像压缩传输方法
信道解码器
信道编码器
生成对抗网络
离散特征
质控系统
超声扫查设备
对比度
多尺度
深度学习模型
智能灌溉系统
果园图像
模拟模型
作物生长模型
作物需水量