一种基于大模型知识的跨模态行人搜索关键语义完备对齐方法

正文

推荐专利

申请号：CN202411744379

申请日期：2024-11-30

公开号：CN119474438B

公开日期：2025-09-19

类型：发明专利

摘要

本申请属于计算机视觉和自然语言处理技术领域。本申请提供一种基于大模型知识的跨模态行人搜索关键语义完备对齐方法。本公开实施例利用预训练视觉语言大模型所含外部通用知识提取更具判别力的视觉特征和文本特征；设计噪声过滤模块，通过参考模态内的全局和局部语义间的关系，滤除图像和文本中与行人无关的噪声，仅保留与行人相关的细粒度关键语义信息；提出关键语义显著性与完整性联合优化的完备学习模块，同时考虑显著性和完整性两方面的协同关系，实现跨模态行人关键语义信息的完备对齐。能够过滤行人无关的噪声信息，增强模型对行人相关的关键信息的关注度，挖掘跨模态细粒度信息之间的对应关系，进而提升跨模态行人检索的准确度。

技术关键词

语义跨模态对齐方法多层感知机多模态图像文本编码器过滤模块噪声信息词向量嵌入方法子模块注意力语句训练集视觉特征计算机视觉

系统为您推荐了相关专利信息

一种基于GitLab的代码审核方法、系统、设备及介质

函数调用关系深度优先搜索算法代码审核方法资源消耗量语法结构

一种基于局部特征置信度的图像-文本匹配方法

文本匹配方法矩阵样本图像全局特征缩放参数

一种基于图神经网络的跨架构二进制代码相似性检测方法

二进制代码相似性检测方法固件漏洞软件代码特征

一种铁路建设阶段作业指导书智能查询方法

作业指导书智能查询方法节点表格知识图谱查询

一种基于柔性传感器的患者情绪监测方法及系统

柔性传感器多模态数据融合环境噪声干扰情绪监测方法生理

一种基于大模型知识的跨模态行人搜索关键语义完备对齐方法

站点导航

APP 下载