一种基于大规模预训练模型的跨模态行人搜索的实现方法

AITNT
正文
推荐专利
一种基于大规模预训练模型的跨模态行人搜索的实现方法
申请号:CN202411521867
申请日期:2024-10-29
公开号:CN119399794B
公开日期:2025-09-26
类型:发明专利
摘要
本发明公开了一种基于大规模预训练模型的跨模态行人搜索的实现方法,涉及计算机视觉、自然语言处理和机器学习技术领域。首先对某个跨模态行人搜索数据集按比例将其中的图像划分为训练数据集和验证数据集,并将训练数据集和验证数据集中的行人图像属性分别按照自定义的句子模板进行填充,得到对应的两个文本。将训练数据集的文本数据中的属性进行随机掩码,得到掩码文本。然后基于大规模预训练模型构建跨模态行人搜索算法,将训练数据集的图像、文本和掩码文本导入跨模态行人搜索算法中,通过训练迭代生成跨模态行人搜索算法模型。最后通过测试数据集合测试训练好的跨模态行人搜索算法模型的搜索准确率。
技术关键词
行人搜索算法 预训练模型 行人图像属性 跨模态 句子模板 属性匹配 图像类别 数据 图像全局特征 融合特征 细粒度特征 机器学习技术 文本编码器 图像编码器 多层感知器 计算机视觉 自然语言 分类器
系统为您推荐了相关专利信息
1
基于语义感知的开放场景英语语音评估方法及系统
语音评估方法 文本 特征提取模块 声学特征 语义
2
基于AI的ASA广告关键词及素材生成系统
关键词 代表 生成系统 多臂老虎机 生成广告
3
一种数据真伪鉴别方法、系统、设备和存储介质
真伪鉴别方法 音频特征 文本 跨模态 模态特征
4
一种跨模态聚类引导图像编码器的训练方法
图像编码器 跨模态 局部图像特征 医学 报告
5
基于检索增强的第一视角视频描述系统
视角 视觉特征提取 跨模态 文本编码器 视频编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号