摘要
本发明提供了多模态图像文本多标签分类方法、系统、设备及存储介质,该方法包括:构建多模态多标签二分类模型,进行权重合并推理优化;基于笔记数据库进行数据标注,生成高质量数据集;将高质量数据集输入多模态多标签二分类模型中的图文基座模型以提取特征,获得文本信息增强特征和图像信息增强特征;基于文本信息增强特征和图像信息增强特征获得增强后的图像文本特征;基于增强后的图像文本特征对图像进行多标签分类。本发明能够更好地理解图像和文本之间的关系,从而提升模型对图文信息联合表示的能力,增强了模型在多模态任务中的性能,提升多标签分类的整体效能。
技术关键词
多标签分类方法
二分类模型
多模态
文本
图像
多标签分类系统
数据
图文
兴趣点
分类设备
整体效能
处理器
线性
爬虫
基座
模块
可读存储介质
键值
程序
系统为您推荐了相关专利信息
图像对齐方法
NCC算法
空间变换关系
计算机可执行指令
RANSAC算法
影像重建方法
空间预测器
遥感影像数据
亮度
指标
屏幕压力感应
习惯
应用服务推送方法
文本
非易失性计算机存储介质
训练文本数据
病历
计算机程序指令
样本
数据存储
杆塔信息
智能检测方法
杆塔图像
校正
图像处理系统