跨模态对齐的图像文本匹配方法、装置、设备及介质

正文

推荐专利

申请号：CN202510184813

申请日期：2025-02-19

公开号：CN120107735A

公开日期：2025-06-06

类型：发明专利

摘要

本申请提供一种跨模态对齐的图像文本匹配方法、装置、设备及介质，涉及跨模态数据处理技术领域。该方法包括：获取待匹配图像、待匹配文本和文本提示词；将待匹配文本和文本提示词输入至图像文本匹配模型的文本编码器，得到文本编码器输出的文本向量和第一转换向量；将待匹配图像输入至图像文本匹配模型的图像编码器，得到图像编码器输出的图像向量和第二转换向量；根据第一转换向量和第二转换向量，确定权重向量；权重向量用于确定图像向量和文本向量中各个维度的权重；根据图像向量、文本向量和权重向量，确定待匹配图像和待匹配文本的相似度；基于相似度，确定待匹配图像和待匹配文本的匹配结果。本申请能够快速准确地实现图像和文本的匹配。

技术关键词

图像文本匹配模型文本编码器文本匹配方法图像编码器交叉注意力机制跨模态标签文本匹配装置元素可读存储介质存储计算机程序数据处理技术处理器编码模块视觉存储器

系统为您推荐了相关专利信息

训练模型方法、图像处理方法、电子设备及存储介质

图像特征向量图像编码器图像处理方法文本生成模型文本特征向量

用于二分图像分割的高分辨率数据合成方法和设备

图像分割编辑生成器网络边缘检测算子生成方法

基于多模态模型的计算机断层扫描图像分割的伪标签选择方法、系统、设备和介质

文本编码器图像编码器视觉特征标签多模态

一种文本合成图像的训练方法及训练系统

融合特征生成对抗网络随机噪声生成合成图图像生成器

一种文本驱动的高光谱图像地物分类方法

图像地物分类方法文本编码器输出特征空间特征提取光谱特征提取

跨模态对齐的图像文本匹配方法、装置、设备及介质

站点导航

APP 下载