摘要
一种基于多模态模型的媒资库图片检索方法,包括以下步骤:S1、采集图片和与其相对应的文本数据,并对图片进行预处理;S2、对图片和相对应的文本数据统一进行编码,生成图片整体场景描述和图片多标签描述;S3、通过多模态嵌入融合网络将图片整体场景描述和图片多标签描述转换为高维嵌入向量,并进行融合;S4、将用户的搜索文本转化为向量,并与融合后的图片向量采用相似度计算方法,来确定对应的图片。本发明提供的基于多模态模型的媒资库图片检索方法,能够通过将图像和文字信息相结合,更加准确地描述图像内容,从而实现更高效的图片搜索。
技术关键词
图片检索方法
图片多标签
多模态
文本
度计算方法
数据
场景
序列
编码
样本
色彩
训练集
矩阵
网络
图像
线性
定义
参数
系统为您推荐了相关专利信息
时间序列特征
多模态特征
眼部关键点
学生
注意力检测方法
健康评价方法
时空卷积神经网络
支持向量机分类算法
时间序列数据分析
多模态数据融合
人机交互方法
监测数据处理
情感倾向识别
语音声学特征
性能监测数据
神经网络模型
云端存储方法
轻量级加密算法
物联网设备数据
间隔特征