一种基于混合注意力机制的跨模态检索方法及系统

AITNT
正文
推荐专利
一种基于混合注意力机制的跨模态检索方法及系统
申请号:CN202411964844
申请日期:2024-12-30
公开号:CN120071358A
公开日期:2025-05-30
类型:发明专利
摘要
本发明公开了一种基于混合注意力机制的跨模态检索方法及系统,本发明的方法包括基于ConvNeXt和BERT模型进行图像及对应的文本的特征提取,并根据提取的特征进行多模态特征聚合得到对应的粗粒度特征;基于粗粒度特征将BERT的中间层输出与ConvNeXt的顶层输出进行跨层对齐,并将BERT的顶层输出和ConvNeXt的顶层输出进行层次化对齐,以得到图像‑文本对齐结果;基于图像‑文本对齐结果通过采用粗粒度召回和细粒度检索的分层推理策略进行跨模态检索。本发明通过有效的语义过滤机制提炼关键信息,实现更准确的跨模态检索,提高检索的准确率和效率。
技术关键词
多模态特征 文本 图像 模态检索方法 注意力机制 中间层 跨模态 矩阵 分层 检索系统 对齐模块 语义 策略
系统为您推荐了相关专利信息
1
一种基于HGT网络的车辆多模态轨迹预测方法
车辆 轨迹 多层感知机 感知环境变化 解码模块
2
基于深度学习多模态融合的高分辨率遥感图像精准分类系统及方法
高分辨率遥感图像 分类系统 多模态 通道注意力机制 数据
3
显示控制方法和显示设备
显示控制方法 灰阶 像素单元 显示设备 图像
4
一种自动化外设适配测试方法、装置、设备和存储介质
控制测试执行 适配测试方法 计算机系统 脚本 控件
5
基于视觉辅助的腹腔镜机器人视野自动调整方法及系统
腹腔镜机器人 手术器械 视野 腹腔镜图像 注意力
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号