摘要
本发明公开了一种基于大规模预训练模型的跨模态行人搜索的实现方法,涉及计算机视觉、自然语言处理和机器学习技术领域。首先对某个跨模态行人搜索数据集按比例将其中的图像划分为训练数据集和验证数据集,并将训练数据集和验证数据集中的行人图像属性分别按照自定义的句子模板进行填充,得到对应的两个文本。将训练数据集的文本数据中的属性进行随机掩码,得到掩码文本。然后基于大规模预训练模型构建跨模态行人搜索算法,将训练数据集的图像、文本和掩码文本导入跨模态行人搜索算法中,通过训练迭代生成跨模态行人搜索算法模型。最后通过测试数据集合测试训练好的跨模态行人搜索算法模型的搜索准确率。
技术关键词
行人搜索算法
预训练模型
行人图像属性
跨模态
句子模板
属性匹配
图像类别
数据
图像全局特征
融合特征
细粒度特征
机器学习技术
文本编码器
图像编码器
多层感知器
计算机视觉
自然语言
分类器
系统为您推荐了相关专利信息
视角
视觉特征提取
跨模态
文本编码器
视频编码器