基于SAM候选框生成与候选区域-词聚类的开放词汇物体检测方法

AITNT
正文
推荐专利
基于SAM候选框生成与候选区域-词聚类的开放词汇物体检测方法
申请号:CN202510634031
申请日期:2025-05-16
公开号:CN120451679A
公开日期:2025-08-08
类型:发明专利
摘要
一种基于SAM候选框生成与候选区域‑词聚类的开放词汇物体检测方法,属于机器视觉中的物体检测技术领域。本发明针对现有开放词汇物体检测技术存在新颖类别的候选框不足以及二分匹配导致匹配缺失的问题。包括获取输入图像基于SAM模块的候选框和感兴趣区域候选框并进行拼接,再经特征对齐层得到候选框映射特征;获得输入图像的标签的编码特征,并与候选框映射特征进行二分匹配;采用候选区域‑词聚类模块将每一对二分匹配结果对应的编码特征和候选框映射特征相加,得到配置标签的候选框映射特征;计算其余候选框映射特征与配置标签的候选框映射特征的余弦相似度,并为其余候选框映射特征匹配标签类别,实现一对多匹配。本发明用于开放词汇物体检测。
技术关键词
物体检测方法 SAM模块 图像编码器 配置标签 编码特征 物体检测技术 文本编码器 标签类别 区域候选网络 感兴趣 模型预训练 比例可调 网格 自然语言 关键词 渠道
系统为您推荐了相关专利信息
1
一种基于提示反向学习的医学图像分类方法、装置及介质
医学图像分类方法 注意力模型 图像编码器 视觉特征 文本编码器
2
图像处理方法、癌症的计算机辅助诊断方法
图像处理模型 图像特征信息 融合特征 计算机辅助诊断方法 样本
3
一种用于公共卫生科普的视觉信息推送方法及系统
编码特征 画像 信息推送方法 编码向量 语义
4
基于多模态扩散模型的视觉诱发脑信号解码方法及系统
信号解码方法 视觉诱发脑 语义特征 多模态 重建高分辨率图像
5
基于多模态提示学习的零样本视频动作识别方法
视频动作识别方法 文本编码器 图像编码器 视频动作分类 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号