摘要
本申请提供一种跨模态对齐的图像文本匹配方法、装置、设备及介质,涉及跨模态数据处理技术领域。该方法包括:获取待匹配图像、待匹配文本和文本提示词;将待匹配文本和文本提示词输入至图像文本匹配模型的文本编码器,得到文本编码器输出的文本向量和第一转换向量;将待匹配图像输入至图像文本匹配模型的图像编码器,得到图像编码器输出的图像向量和第二转换向量;根据第一转换向量和第二转换向量,确定权重向量;权重向量用于确定图像向量和文本向量中各个维度的权重;根据图像向量、文本向量和权重向量,确定待匹配图像和待匹配文本的相似度;基于相似度,确定待匹配图像和待匹配文本的匹配结果。本申请能够快速准确地实现图像和文本的匹配。
技术关键词
图像文本匹配模型
文本编码器
文本匹配方法
图像编码器
交叉注意力机制
跨模态
标签
文本匹配装置
元素
可读存储介质
存储计算机程序
数据处理技术
处理器
编码模块
视觉
存储器
系统为您推荐了相关专利信息
图像特征向量
图像编码器
图像处理方法
文本生成模型
文本特征向量
图像分割
编辑
生成器网络
边缘检测算子
生成方法
融合特征
生成对抗网络
随机噪声
生成合成图
图像生成器
图像地物分类方法
文本编码器
输出特征
空间特征提取
光谱特征提取