摘要
本申请属于计算机视觉和自然语言处理技术领域。本申请提供一种基于大模型知识的跨模态行人搜索关键语义完备对齐方法。本公开实施例利用预训练视觉语言大模型所含外部通用知识提取更具判别力的视觉特征和文本特征;设计噪声过滤模块,通过参考模态内的全局和局部语义间的关系,滤除图像和文本中与行人无关的噪声,仅保留与行人相关的细粒度关键语义信息;提出关键语义显著性与完整性联合优化的完备学习模块,同时考虑显著性和完整性两方面的协同关系,实现跨模态行人关键语义信息的完备对齐。能够过滤行人无关的噪声信息,增强模型对行人相关的关键信息的关注度,挖掘跨模态细粒度信息之间的对应关系,进而提升跨模态行人检索的准确度。
技术关键词
语义
跨模态
对齐方法
多层感知机
多模态
图像
文本编码器
过滤模块
噪声信息
词向量嵌入方法
子模块
注意力
语句
训练集
视觉特征
计算机视觉
系统为您推荐了相关专利信息
函数调用关系
深度优先搜索算法
代码审核方法
资源消耗量
语法结构
二进制代码相似性检测方法
固件
漏洞
软件
代码特征
作业指导书
智能查询方法
节点
表格
知识图谱查询
柔性传感器
多模态数据融合
环境噪声干扰
情绪监测方法
生理