一种面向无人化医检的基于Mamba的视觉语言开放词汇检测方法

正文

推荐专利

申请号：CN202510806228

申请日期：2025-06-17

公开号：CN120912847A

公开日期：2025-11-07

类型：发明专利

摘要

一种面向无人化医检的基于Mamba的视觉语言开放词汇检测方法，包括：1)获取在面向无人化医检场景下的原始文本信息和原始图像信息；2)基于大语言模型LLM对原始文本信息进行处理，并提取出具有空间语义的三元组文本；3)采用CLIP编码器对三元组文本进行特征提取，得到文本特征；4)采用基于Mamba‑YOLO的视觉主干网络对原始图像信息进行特征提取，得到多尺度图像特征；5)采用基于Mamba的视觉语言特征融合网络对文本特征和多尺度图像特征进行双向对齐与融合，进而实现面向无人化医检的视觉语言开放词汇检测。本发明提出一种面向医疗检验场景的开放词汇目标检测模型，提升模型在复杂医检环境下的泛化检测能力。

技术关键词

词汇检测方法三元组文本卷积模块特征融合网络关键词视觉多维度特征提取线索图像实体关系抽取输出特征多尺度语义全局平均池化大语言模型 Sigmoid函数

一种面向无人化医检的基于Mamba的视觉语言开放词汇检测方法

站点导航

APP 下载