摘要
一种面向无人化医检的基于Mamba的视觉语言开放词汇检测方法,包括:1)获取在面向无人化医检场景下的原始文本信息和原始图像信息;2)基于大语言模型LLM对原始文本信息进行处理,并提取出具有空间语义的三元组文本;3)采用CLIP编码器对三元组文本进行特征提取,得到文本特征;4)采用基于Mamba‑YOLO的视觉主干网络对原始图像信息进行特征提取,得到多尺度图像特征;5)采用基于Mamba的视觉语言特征融合网络对文本特征和多尺度图像特征进行双向对齐与融合,进而实现面向无人化医检的视觉语言开放词汇检测。本发明提出一种面向医疗检验场景的开放词汇目标检测模型,提升模型在复杂医检环境下的泛化检测能力。
技术关键词
词汇检测方法
三元组
文本
卷积模块
特征融合网络
关键词
视觉
多维度特征提取
线索
图像
实体关系抽取
输出特征
多尺度
语义
全局平均池化
大语言模型
Sigmoid函数