摘要
本发明提出一种无人机场景下基于开放词汇的人物交互检测方法,包括使用预训练的CLIP视觉编码器提取图像的全局特征,将图像分割成多个图像块并编码;引入MLR模块提取全局上下文信息,从多级特征图中解码人物交互,在预测结果和真实结果之间进行二分图匹配时,设计损失函数以引导低级特征图对应于较小距离的人物对,高级特征图对应于较大距离的人物对;利用大型语言模型生成与图像中人物交互相关的人体部位状态描述,将人物交互类别名称和相关人体部位的状态描述编码为文本嵌入,并将嵌入与人物交互解码器的输出以及MLR模块提取的全局上下文信息相结合,得到实例级的检测分数,本发明中模型更好地适应不同距离下的交互检测需求。
技术关键词
交互检测方法
无人机场景
文本编码器
多级特征
解码器
图像编码器
上下文特征
图像嵌入
编码特征
图像块
视觉
图像分割
分支
人体
对象
模块
系统为您推荐了相关专利信息
缝合线
缺陷检测方法
深度学习算法
编织袋
空间金字塔池化
缺陷分割方法
注意力
多维度特征提取
样本
解码器
SCADA系统
卷积神经网络模块
风电机组
软测量方法
载荷
电力负荷预测方法
结点
建立神经网络模型
表达式
关系