一种基于跨模态语义对齐的图像-文本检索方法

AITNT
正文
推荐专利
一种基于跨模态语义对齐的图像-文本检索方法
申请号:CN202510363596
申请日期:2025-03-26
公开号:CN120296186A
公开日期:2025-07-11
类型:发明专利
摘要
本发明公开了一种基于跨模态语义对齐的图像‑文本检索方法,首先将整张图像转化为一组区域级图像特征,然后利用语义增强模块处理区域级图像特征,获得增强后的区域级图像特征;然后通过两个自适应注意因子更新区域级图像特征中与文本句子中某单词特征相关的区域级图像特征;计算文本句子中每个单词特征和与其相关的每个区域级图像特征的相似性,并计算得到整个文本句子和整张图像之间的相似度得分;最后根据上述步骤,查询文本句子或图像时,检索出数据库中与此文本句子或图像相似度得分最高的L张图片或L个文本句子作为检索结果。本发明能更准确地编码区域级图像特征,并显著促进单词‑区域级图像匹配过程。
技术关键词
文本检索方法 跨模态 语义 因子 图像增强 注意力 矩阵 图像匹配 代表 图片 校正 模块 变量 参数 编码 元素 通道 算法
系统为您推荐了相关专利信息
1
代码生成方法及装置
功能模块 代码生成方法 资源库 计算机可执行指令 语句
2
医学图像处理方法、装置、电子设备及存储介质
甲状腺超声图像 医学图像处理方法 图像处理模型 轮廓区域 医学图像处理装置
3
用于工业三维模型构建的点云数据处理方法、系统及设备
数据处理方法 工业 三维模型 点云 深度置信网络
4
基于多源数据融合的原材料供需流向监测系统及方法
监测系统 物流 共识算法 交通 监测模块
5
配电网动静态区域划分方法、系统、终端及介质
区域划分方法 负荷转供 动静态 开关 复杂度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号