摘要
本发明公开了一种基于双向语义对齐的跨模态行人检索方法,属于计算机视觉技术领域。本发明通过深入分析文本和图像之间的中层语义,为缩小在全局匹配方法中所忽略的细粒度语义层面差距,提供更为丰富的语义理解;通过引入一种双向特征预测机制,即通过使用不完整的图像特征与完整的文本特征(或者完整的图像特征与不完整的文本特征)相结合,以预测并重构缺失的信息,实现更准确的文本‑图像跨模态对齐;在一个扩展的特征空间内,无缝集成来自文本和图像的多维语义和结构属性,以捕捉更细微的视觉细节和更深层的语义内容;提高了基于文本的图像检索任务的匹配精度和效率,使之能够在各种复杂的环境和条件下,有效识别和检索行人图像。
技术关键词
行人检索方法
文本特征向量
图像特征向量
预测编码器
文本编码器
图像编码器
全局匹配方法
数据
计算机视觉技术
语义层面
算法
注意力机制
跨模态
分词
重构
参数
系统为您推荐了相关专利信息
文本特征向量
业务识别方法
跨模态数据
样本
时序
融合特征
生成提示词
矩阵
多模态
梅尔频率倒谱系数
人工智能自动化
报告
文本编码器
医学人工智能
评价方法
编码器模块
预训练模型
迁移方法
多模态
文本编码器