摘要
本发明提供一种基于属性学习和特征筛选的多粒度文本行人搜索方法,对图像‑文本对进行粗粒度特征学习,利用概率模型过滤噪声数据,并通过自监督成本函数优化跨模态对齐以获取全局特征;基于编码器输出的自注意力权重筛选图像和文本的token,生成中粒度特征表示;对文本中符合形容词‑名词组合的行人属性词汇进行随机掩码,通过多模态交互编码器融合特征并预测被掩码词汇,实现细粒度属性对齐;组合粗粒度损失、中粒度损失和细粒度损失,迭代训练模型并根据验证准确率保存最优模型,输出行人搜索结果。
技术关键词
行人搜索方法
文本
多模态交互
编码器
噪声数据
融合特征
跨模态
交叉注意力机制
高斯混合模型
搜索系统
多层感知机
图像分割
输出模块
标记
序列
理论
系统为您推荐了相关专利信息
图像去模糊方法
神经网络模型
编码器
多尺度
高层次
谣言检测方法
特征提取网络
多模态信息
跨模态
图像特征信息
结构生成方法
非均质结构
样本
空间分布特征
编码器训练