摘要
本发明提供一种多模态图像分类方法、系统、存储介质及电子设备,包括:抽取表示图像汇聚的特殊字符的字符特征;抽取待分类图像的图像特征;基于所述字符特征和所述图像特征获取第一字符向量、第二字符向量和第三字符向量;获取待分类图像的文本描述信息;基于文本描述信息获取第一文本向量、第二文本向量和第三文本向量;将所述第一字符向量、所述第二字符向量、所述第三字符向量、所述第一文本向量、所述第二文本向量和所述第三文本向量均输入分类模型,以获取所述待分类图像的分类结果。本发明的多模态图像分类方法、系统、存储介质及电子设备基于图像、文本等多模态信息实现图像的分类,有效提升了分类准确率。
技术关键词
字符
图像分类方法
文本
多层感知机
图像分类系统
编码器
解码模块
编码模块
解码器
电子设备
多模态
注意力机制
矩阵
分类准确率
存储计算机程序
存储器
可读存储介质
系统为您推荐了相关专利信息
语义特征
图像编码器
图像分割模型
解码网络
标志物
大语言模型
测试题
医学知识库
知识库管理
检索标签