一种基于多模态检索增强机制的图像识别方法及装置

AITNT
正文
推荐专利
一种基于多模态检索增强机制的图像识别方法及装置
申请号:CN202511179927
申请日期:2025-08-22
公开号:CN121033532A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种基于多模态检索增强机制的图像识别方法及装置,该方法包括:构建图文外部知识库以存储图像与文本对,利用图像查询样本通过k近邻检索从图文外部知识库中检索出与其语义相关的图像及文本信息;设计检索交叉融合模块,以通过融合检索到的图像嵌入向量与文本嵌入向量,有效建模图像与文本模态之间的关系;将该检索交叉融合模块与图像编码器和骨干网络模块并联构建多模态增强图像识别模型,在图像识别过程中同时考虑原始图像信息与图文外部知识库中的多模态上下文信息;最终获得鲁棒性强的图像识别模型。本发明能够显著提升在图像识别领域尤其是长尾分布识别、噪声标签学习任务中的识别准确率,具有良好的可扩展性和实际应用价值。
技术关键词
图像识别方法 图像嵌入 图像编码器 多模态 网络模块 图文 文本编码器 训练图像识别模型 检索算法 多层感知机 注意力机制 矩阵 语义 图像识别装置 噪声标签 线性
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号