摘要
本申请实施例提供了一种基于注意力机制的视频类别预测方法及相关设备,属于人工智能技术领域。该方法包括:对待预测视频的目标图像数据进行特征提取,得到目标图像特征和目标全局特征。分别通过特征映射层和局部注意力网络对目标图像进行处理,得到目标局部特征。通过特征融合层对局部和全局的特征进行融合,得到目标复合特征。获取每一目标图像数据的目标复合特征,得到多个目标复合特征,通过时序池化模块对多个目标复合特征进行时序特征学习,得到复合时序特征。根据复合时序特征对目标图像数据进行类别预测,得到预测目标类别。准确的提取出目标局部特征后,再基于复合时序特征进行预测,提高了视频类别预测的准确性。
技术关键词
类别预测模型
时序特征
类别预测方法
图像
注意力机制
数据
视频
网络
可读存储介质
特征提取模块
人工智能技术
预测装置
电子设备
策略
标签
处理器
输入模块
系统为您推荐了相关专利信息
智能会议管理系统
发言人
人脸图像捕捉
会议管理方法
麦克风阵列
图像配准方法
混合网络模型
执行编码解码
标签
多模态
信息提取模型
样本
图像特征数据
身份信息提取方法
嵌入特征
三维重建方法
采样点
颜色
多层感知机
计算机程序指令