一种基于大模型知识的跨模态行人搜索关键语义完备对齐方法

AITNT
正文
推荐专利
一种基于大模型知识的跨模态行人搜索关键语义完备对齐方法
申请号:CN202411744379
申请日期:2024-11-30
公开号:CN119474438B
公开日期:2025-09-19
类型:发明专利
摘要
本申请属于计算机视觉和自然语言处理技术领域。本申请提供一种基于大模型知识的跨模态行人搜索关键语义完备对齐方法。本公开实施例利用预训练视觉语言大模型所含外部通用知识提取更具判别力的视觉特征和文本特征;设计噪声过滤模块,通过参考模态内的全局和局部语义间的关系,滤除图像和文本中与行人无关的噪声,仅保留与行人相关的细粒度关键语义信息;提出关键语义显著性与完整性联合优化的完备学习模块,同时考虑显著性和完整性两方面的协同关系,实现跨模态行人关键语义信息的完备对齐。能够过滤行人无关的噪声信息,增强模型对行人相关的关键信息的关注度,挖掘跨模态细粒度信息之间的对应关系,进而提升跨模态行人检索的准确度。
技术关键词
语义 跨模态 对齐方法 多层感知机 多模态 图像 文本编码器 过滤模块 噪声信息 词向量嵌入方法 子模块 注意力 语句 训练集 视觉特征 计算机视觉
系统为您推荐了相关专利信息
1
一种基于GitLab的代码审核方法、系统、设备及介质
函数调用关系 深度优先搜索算法 代码审核方法 资源消耗量 语法结构
2
一种基于局部特征置信度的图像-文本匹配方法
文本匹配方法 矩阵 样本 图像全局特征 缩放参数
3
一种基于图神经网络的跨架构二进制代码相似性检测方法
二进制代码相似性检测方法 固件 漏洞 软件 代码特征
4
一种铁路建设阶段作业指导书智能查询方法
作业指导书 智能查询方法 节点 表格 知识图谱查询
5
一种基于柔性传感器的患者情绪监测方法及系统
柔性传感器 多模态数据融合 环境噪声干扰 情绪监测方法 生理
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号