摘要
本申请提供了基于知识的动作工具对象智能交互检测方法,涉及图像识别技术领域,该方法包括:通过骨干网络获取输入图像的视觉特征;激活交互检测器,所述交互检测器中内嵌有交互预测策略,对所述视觉特征进行分析,得到预测HTOL实例;通过实例匹配器得到预测匹配度;当所述预测匹配度达到匹配门限值时,将所述预测HTOL实例作为所述输入图像的交互检测结果。现有的二元检测算法仅表达动作类别,无法描述工具的多义性,无法细分出不同工具作用于一个操作的执行动作,实现更精确地检测和理解人的动作、工具和对象之间的交互,评估工具使用的正确性,为多种应用场景提供有价值的功能性评估和分析。
技术关键词
交互检测方法
动作工具
视觉特征
多层感知器
检测器
对象
策略
精确地检测
图像识别技术
分支
关系
解码器
编码器
匹配器
网络
物体
指令
内存