基于视觉语言预训练的开放词汇时空动作检测方法及装置

AITNT
正文
推荐专利
基于视觉语言预训练的开放词汇时空动作检测方法及装置
申请号:CN202510010810
申请日期:2025-01-03
公开号:CN119904781A
公开日期:2025-04-29
类型:发明专利
摘要
本发明提供一种基于视觉语言预训练的开放词汇时空动作检测方法及装置,涉及时空动作检测技术领域。该方法包括:获取待检测的视频数据输入到局部分支得到与人相关的区域特征;局部分支包括以人为中心的与类别无关管检测器和位置感知的区域解析器;将视频数据输入到全局分支得到全局视频特征;全局分支包括视频层面的视觉语言预训练模型;将与人相关的区域特征以及全局视频特征融合,计算融合的视频区域特征与文本特征的相似度得到行为类别的分类结果。在UCF‑JHMDB数据集上进行广泛实验表明,本发明优于现有方法的性能。为解决开放识别能力不足的问题提供了一种可行的解决方案,为进一步研究时空动作检测提供了新的方向和思路。
技术关键词
动作检测方法 计算机可读取存储介质 解析器 视觉 动作检测装置 图像编码器 分支 预训练模型 计算机可读指令 检测器 关键帧 动作检测技术 注意力 视频特征提取 全局特征提取 局部特征提取 数据 检测设备 适配器
系统为您推荐了相关专利信息
1
一种软件自动测试方法、模型、设备及存储介质
软件自动测试方法 生成测试数据 软件测试技术 抽象语法树 语义
2
提升无人机视觉精准降落效果的方法及系统、电子设备
无人机视觉 停机坪 视频流 实时位置 识别无人机
3
一种用于ERP系统的多语言快速处理方法
ERP系统 多语言 矩阵 语义特征 语法结构
4
模型物理常识理解能力强化方法、装置、介质及相关设备
图像生成模型 强化方法 物理 训练集 微调方法
5
一种基于视觉引导的畜禽采食行为特征提取与异常识别方法
异常识别方法 视觉成像装置 动态时间规整算法 多视角图像采集 特征提取网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号