基于视觉语言预训练的开放词汇时空动作检测方法及装置

正文

推荐专利

申请号：CN202510010810

申请日期：2025-01-03

公开号：CN119904781A

公开日期：2025-04-29

类型：发明专利

摘要

本发明提供一种基于视觉语言预训练的开放词汇时空动作检测方法及装置，涉及时空动作检测技术领域。该方法包括：获取待检测的视频数据输入到局部分支得到与人相关的区域特征；局部分支包括以人为中心的与类别无关管检测器和位置感知的区域解析器；将视频数据输入到全局分支得到全局视频特征；全局分支包括视频层面的视觉语言预训练模型；将与人相关的区域特征以及全局视频特征融合，计算融合的视频区域特征与文本特征的相似度得到行为类别的分类结果。在UCF‑JHMDB数据集上进行广泛实验表明，本发明优于现有方法的性能。为解决开放识别能力不足的问题提供了一种可行的解决方案，为进一步研究时空动作检测提供了新的方向和思路。

技术关键词

动作检测方法计算机可读取存储介质解析器视觉动作检测装置图像编码器分支预训练模型计算机可读指令检测器关键帧动作检测技术注意力视频特征提取全局特征提取局部特征提取数据检测设备适配器

系统为您推荐了相关专利信息

一种软件自动测试方法、模型、设备及存储介质

软件自动测试方法生成测试数据软件测试技术抽象语法树语义

提升无人机视觉精准降落效果的方法及系统、电子设备

无人机视觉停机坪视频流实时位置识别无人机

一种用于ERP系统的多语言快速处理方法

ERP系统多语言矩阵语义特征语法结构

模型物理常识理解能力强化方法、装置、介质及相关设备

图像生成模型强化方法物理训练集微调方法

一种基于视觉引导的畜禽采食行为特征提取与异常识别方法

异常识别方法视觉成像装置动态时间规整算法多视角图像采集特征提取网络

基于视觉语言预训练的开放词汇时空动作检测方法及装置

站点导航

APP 下载