多模态目标检索方法、设备及存储介质

AITNT
正文
推荐专利
多模态目标检索方法、设备及存储介质
申请号:CN202411023069
申请日期:2024-07-29
公开号:CN118585666A
公开日期:2024-09-03
类型:发明专利
摘要
本申请公开了一种多模态目标检索方法、设备及存储介质,该多模态目标检索方法包括:对待检索图像进行图像编码得到待检索图像特征,并对提示文本进行文本编码得到文本特征;基于待检索图像特征识别得到候选目标的候选目标区域,获取候选目标区域对应的初始区域特征;利用交叉注意力机制计算文本特征与初始区域特征之间的注意力,得到图文注意力参数;基于图文注意力参数对候选目标区域进行区域图像编码,得到区域视觉特征;计算文本特征与区域视觉特征之间的匹配度,筛选匹配度满足预设条件的区域视觉特征对应的候选目标,得到目标检索结果。使用提示文本信息驱动区域视觉特征的提取,优化区域特征提取能力,提高了目标检索的精度。
技术关键词
视觉特征 文本 注意力参数 检索图像 图像编码 交叉注意力机制 图文 检索方法 融合特征 区域特征提取 多模态 可读存储介质 电子设备 处理器 程序 指令
系统为您推荐了相关专利信息
1
一种电缆沟安全状态评估、处置方法和系统
电缆沟 体系结构框架 数据 深度神经网络模型 故障知识库
2
基于大语言模型的商品信息检索方法、装置及介质
信息检索方法 网页页面 大语言模型 信息检索装置 多模态
3
训练样本的生成方法、装置、设备、介质及程序产品
文本 数据 目录 生成方法 计算机程序产品
4
文档处理方法及装置
文本 大语言模型 答案 计算机可执行指令 特征提取模型
5
一种基于深度学习模型的创建结构化文档的方法
关键词 创建结构化文档 深度学习模型 文本 分片
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号