一种基于大规模预训练模型的跨模态行人搜索的实现方法

正文

推荐专利

申请号：CN202411521867

申请日期：2024-10-29

公开号：CN119399794B

公开日期：2025-09-26

类型：发明专利

摘要

本发明公开了一种基于大规模预训练模型的跨模态行人搜索的实现方法，涉及计算机视觉、自然语言处理和机器学习技术领域。首先对某个跨模态行人搜索数据集按比例将其中的图像划分为训练数据集和验证数据集，并将训练数据集和验证数据集中的行人图像属性分别按照自定义的句子模板进行填充，得到对应的两个文本。将训练数据集的文本数据中的属性进行随机掩码，得到掩码文本。然后基于大规模预训练模型构建跨模态行人搜索算法，将训练数据集的图像、文本和掩码文本导入跨模态行人搜索算法中，通过训练迭代生成跨模态行人搜索算法模型。最后通过测试数据集合测试训练好的跨模态行人搜索算法模型的搜索准确率。

技术关键词

行人搜索算法预训练模型行人图像属性跨模态句子模板属性匹配图像类别数据图像全局特征融合特征细粒度特征机器学习技术文本编码器图像编码器多层感知器计算机视觉自然语言分类器

系统为您推荐了相关专利信息

基于语义感知的开放场景英语语音评估方法及系统

语音评估方法文本特征提取模块声学特征语义

基于AI的ASA广告关键词及素材生成系统

关键词代表生成系统多臂老虎机生成广告

一种数据真伪鉴别方法、系统、设备和存储介质

真伪鉴别方法音频特征文本跨模态模态特征

一种跨模态聚类引导图像编码器的训练方法

图像编码器跨模态局部图像特征医学报告

基于检索增强的第一视角视频描述系统

视角视觉特征提取跨模态文本编码器视频编码器

一种基于大规模预训练模型的跨模态行人搜索的实现方法

站点导航

APP 下载