基于属性对比的密集场景多模态目标检测方法

正文

推荐专利

申请号：CN202511231827

申请日期：2025-09-01

公开号：CN120747845B

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及目标检测技术领域，公开了基于属性对比的密集场景多模态目标检测方法，包括：将图像和自然语言描述分别输入至预设的特征提取模型提取初始视觉特征和初始语言特征；根据预设的多个属性类型，将初始视觉特征和初始语言特征解耦为多个视觉属性级特征和对应的多个语言属性级特征；将多个视觉属性级特征和对应的多个语言属性级特征输入至细粒度属性对比模型，增大不同属性值对应的属性级特征间的区分度，得到增强的多模态属性特征；融合增强的多模态属性特征以生成最终特征谱，并输出自然语言描述所指定的目标对象在图像中的位置信息。本发明旨在解决现有技术在密集场景下因无法分辨相似目标而导致的检测性能不佳的问题。

技术关键词

视觉特征多模态自然语言特征提取模型双向长短期记忆网络场景特征金字塔网络联合损失函数图像分支检测器对象级联坐标编码

系统为您推荐了相关专利信息

一种基于两级大模型智能体的无人装备集群协同控制方法

协同控制方法装备集群指令模板

一种用于脑电-语音-文本三模态对齐方法及设备

文本语音多层感知器对齐方法特征匹配算法

基于多源异构定位数据融合算法的轨迹优化方法

轨迹优化方法数据融合算法误差补偿模型权重分配策略深度强化学习

一种智能客服会话分类方法及装置

关键词特征司机历史会话意图智能客服

基于非限定实体、跨阶段的核电经验反馈查找方法及系统

实体查找方法文本计算机可读指令阶段

基于属性对比的密集场景多模态目标检测方法

站点导航

APP 下载