摘要
本发明公开了一种视频内容智能识别分类的方法、装置及应用,所述方法基于预训练的Transformer模型对视频内容进行识别分类,包括以下步骤:将输入视频分割为帧,并将每帧图像划分为多个非重叠的图像块;对每个图像块进行特征提取并生成对应的令牌;为每个令牌添加位置编码,表示其在原始图像中的空间位置;将带有位置编码的令牌输入至改进的Transformer编码器中,通过改进的带控单向注意力机制计算令牌间的时空依赖关系,得到视频的时空特征;将Transformer编码器输出的时空特征序列输入全连接层,经全连接层输出视频内容的分类概率分布。本发明通过引入Transformer模型及改进后的带控单向注意力机制,能够在大幅降低计算复杂度的前提下提高视频内容识别分类的精度。
技术关键词
令牌
图像块
注意力机制
控制照明灯
运动场地
编码器
灯光控制信号
空间特征提取
开启照明灯
全局平均池化
视频流
特征提取模块
残差网络
传播算法
编码模块
输出模块
系统为您推荐了相关专利信息
多头注意力机制
sigmoid函数
记忆
卷积神经网络模型
终端设备
标注方法
云端数据中心
三维图像数据
无人机遥感
注意力机制
数据分析方法
故障传播路径
设备拓扑结构
配电系统
异构传感器
智能识别系统
智能识别方法
数据采集模块
显微镜成像系统
特征提取模块
烟火检测方法
训练集
模型训练方法
烟火检测装置
奇异值分解算法