一种基于双向语义对齐的跨模态行人检索方法

正文

推荐专利

申请号：CN202410885658

申请日期：2024-07-03

公开号：CN118861340A

公开日期：2024-10-29

类型：发明专利

摘要

本发明公开了一种基于双向语义对齐的跨模态行人检索方法，属于计算机视觉技术领域。本发明通过深入分析文本和图像之间的中层语义，为缩小在全局匹配方法中所忽略的细粒度语义层面差距，提供更为丰富的语义理解；通过引入一种双向特征预测机制，即通过使用不完整的图像特征与完整的文本特征(或者完整的图像特征与不完整的文本特征)相结合，以预测并重构缺失的信息，实现更准确的文本‑图像跨模态对齐；在一个扩展的特征空间内，无缝集成来自文本和图像的多维语义和结构属性，以捕捉更细微的视觉细节和更深层的语义内容；提高了基于文本的图像检索任务的匹配精度和效率，使之能够在各种复杂的环境和条件下，有效识别和检索行人图像。

技术关键词

行人检索方法文本特征向量图像特征向量预测编码器文本编码器图像编码器全局匹配方法数据计算机视觉技术语义层面算法注意力机制跨模态分词重构参数

系统为您推荐了相关专利信息

基于跨模态数据融合的业务识别方法、装置和电子设备

文本特征向量业务识别方法跨模态数据样本时序

基于多模态融合与大语言模型的数字结构化访谈处理方法

融合特征生成提示词矩阵多模态梅尔频率倒谱系数

人工智能自动化报告评价方法及系统

人工智能自动化报告文本编码器医学人工智能评价方法

多模态预训练模型的迁移方法和相关产品

编码器模块预训练模型迁移方法多模态文本编码器

一种化学反应气体实时监测方法、装置及存储介质

气泡匈牙利算法坐标水平校正矫正

一种基于双向语义对齐的跨模态行人检索方法

站点导航

APP 下载