一种无人机场景下基于开放词汇的人物交互检测方法

正文

推荐专利

申请号：CN202510393589

申请日期：2025-03-31

公开号：CN120315583A

公开日期：2025-07-15

类型：发明专利

摘要

本发明提出一种无人机场景下基于开放词汇的人物交互检测方法，包括使用预训练的CLIP视觉编码器提取图像的全局特征，将图像分割成多个图像块并编码；引入MLR模块提取全局上下文信息，从多级特征图中解码人物交互，在预测结果和真实结果之间进行二分图匹配时，设计损失函数以引导低级特征图对应于较小距离的人物对，高级特征图对应于较大距离的人物对；利用大型语言模型生成与图像中人物交互相关的人体部位状态描述，将人物交互类别名称和相关人体部位的状态描述编码为文本嵌入，并将嵌入与人物交互解码器的输出以及MLR模块提取的全局上下文信息相结合，得到实例级的检测分数，本发明中模型更好地适应不同距离下的交互检测需求。

技术关键词

交互检测方法无人机场景文本编码器多级特征解码器图像编码器上下文特征图像嵌入编码特征图像块视觉图像分割分支人体对象模块

系统为您推荐了相关专利信息

一种基于深度学习算法的编织袋缝合线缺陷检测方法、装置、设备及介质

缝合线缺陷检测方法深度学习算法编织袋空间金字塔池化

一种特征图像自动检测对比方法

验证特征层级权重策略物体关键特征点

基于提示学习的小样本缺陷分割方法及系统

缺陷分割方法注意力多维度特征提取样本解码器

一种面向风电机组塔底载荷软测量方法

SCADA系统卷积神经网络模块风电机组软测量方法载荷

一种基于关系增强监督学习的电力负荷预测方法

电力负荷预测方法结点建立神经网络模型表达式关系

一种无人机场景下基于开放词汇的人物交互检测方法

站点导航

APP 下载