基于预训练模型的文本到行人图像检索方法及存储介质

AITNT
正文
推荐专利
基于预训练模型的文本到行人图像检索方法及存储介质
申请号:CN202411061423
申请日期:2024-08-05
公开号:CN118887703A
公开日期:2024-11-01
类型:发明专利
摘要
本发明公开了一种基于预训练模型的跨模态文本到行人图像检索方法及存储介质,本发明改进了掩蔽语言建模策略,使用全词掩码策略,能够更好的挖掘图像与文本之间的细粒度关系。并且运用文本的属性这一特征,利用交叉模态编码器进行文本与图像之间的融合交互,以此学习更多的信息,进一步还提供了一个基于软注意力模态融合模块,加入此模块可以促进相同语义类别间的模态信息交互,从而达到更好的检索性能。
技术关键词
图像检索方法 预训练模型 图像检索模型 文本编码器 非暂态计算机可读存储介质 注意力 掩码策略 图像编码器 图文 模块 语义 处理器 关系
系统为您推荐了相关专利信息
1
一种基于分段频域注意力融合的古筝缺陷智能识别方法
古筝 缺陷智能 预训练模型 识别方法 注意力
2
音效生成方法及系统
音效生成方法 大语言模型 标签 非暂态计算机可读存储介质 生成文本内容
3
基于多模态大模型文本提示的无监督CT图像去噪方法及装置
CT图像去噪方法 多模态 文本 编解码结构 降噪模块
4
终端远程升级方法、系统、设备、存储介质及程序产品
窄带物联网终端 终端远程升级方法 网络负载信息 混合整数规划 鲸鱼优化算法
5
带钢牵引参数确定方法、装置、电子设备及介质
区域智能识别 双线阵相机 深度学习模型 带钢头部 点云
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号