一种基于Tramba模型的视频理解方法及系统

正文

推荐专利

申请号：CN202510138273

申请日期：2025-02-08

公开号：CN120279454A

公开日期：2025-07-08

类型：发明专利

摘要

本发明涉及一种基于Tramba模型的视频理解方法，包括以下步骤：步骤1输入层接收数据：接收多帧视频数据作为输入，其格式为3×T×H×W；步骤2特征提取阶段：利用3D Patch Embedding对输入的多帧视频进行特征提取操作，将视频数据划分成一个个三维的小块；步骤3Tramba的多个stage处理：数据依次通过n个Tramba的stage，每个stage对特征进行逐步的精炼和优化；步骤4Stage内具体层处理；步骤5输出阶段。本发明在处理高分辨率长视频时表现出色，能够精准捕捉视频中复杂的时空依赖关系以及长上下文信息，显著提升了视频动作识别等理解任务的准确率，相比现有技术在应对长视频内容时优势明显。

技术关键词

视频理解方法视频动作识别状态空间模型理解系统状态更新机制数据关系特征提取模块特征点处理器阶段格式图像输入模块输出模块视角可读存储介质处理单元存储器

系统为您推荐了相关专利信息

一种面向吞咽造影分析的半监督关键点定位方法及设备

关键点定位方法卡尔曼滤波算法置信度阈值标签热力图

一种基于上采样Mamba模型的点云补全方法与系统

补全方法稠密点云上采样多层感知机 K近邻算法

基于混合特征优化与变分预测的日径流智能预报方法、系统、存储介质和电子设备

智能预报方法解码器编码器注意力机制时序依赖关系

一种兼顾系统频率支撑和阻尼提升的风电场协调鲁棒控制方法

鲁棒控制方法兼顾系统功率振荡阻尼同步机频率

一种多无人船系统传输相关的分布式模糊故障检测方法

模糊故障故障检测滤波器无人船系统分布式故障检测模糊规则

一种基于Tramba模型的视频理解方法及系统

站点导航

APP 下载