跨模态对齐的图像文本匹配方法、装置、设备及介质

AITNT
正文
推荐专利
跨模态对齐的图像文本匹配方法、装置、设备及介质
申请号:CN202510184813
申请日期:2025-02-19
公开号:CN120107735A
公开日期:2025-06-06
类型:发明专利
摘要
本申请提供一种跨模态对齐的图像文本匹配方法、装置、设备及介质,涉及跨模态数据处理技术领域。该方法包括:获取待匹配图像、待匹配文本和文本提示词;将待匹配文本和文本提示词输入至图像文本匹配模型的文本编码器,得到文本编码器输出的文本向量和第一转换向量;将待匹配图像输入至图像文本匹配模型的图像编码器,得到图像编码器输出的图像向量和第二转换向量;根据第一转换向量和第二转换向量,确定权重向量;权重向量用于确定图像向量和文本向量中各个维度的权重;根据图像向量、文本向量和权重向量,确定待匹配图像和待匹配文本的相似度;基于相似度,确定待匹配图像和待匹配文本的匹配结果。本申请能够快速准确地实现图像和文本的匹配。
技术关键词
图像文本匹配模型 文本编码器 文本匹配方法 图像编码器 交叉注意力机制 跨模态 标签 文本匹配装置 元素 可读存储介质 存储计算机程序 数据处理技术 处理器 编码模块 视觉 存储器
系统为您推荐了相关专利信息
1
训练模型方法、图像处理方法、电子设备及存储介质
图像特征向量 图像编码器 图像处理方法 文本生成模型 文本特征向量
2
用于二分图像分割的高分辨率数据合成方法和设备
图像分割 编辑 生成器网络 边缘检测算子 生成方法
3
基于多模态模型的计算机断层扫描图像分割的伪标签选择方法、系统、设备和介质
文本编码器 图像编码器 视觉特征 标签 多模态
4
一种文本合成图像的训练方法及训练系统
融合特征 生成对抗网络 随机噪声 生成合成图 图像生成器
5
一种文本驱动的高光谱图像地物分类方法
图像地物分类方法 文本编码器 输出特征 空间特征提取 光谱特征提取
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号