摘要
本申请涉及视频处理技术领域,尤其涉及一种视频标签识别及模型训练方法、装置、设备和介质,用以高效准确地识别中视频、长视频的标签。方法包括:对各视频帧分别进行编码,获得相应的全局特征和局部特征,并基于特征相似度,分别对获得的全局特征集和局部特征集进行压缩,得到预设存储长度的全局特征序列和局部特征序列;对预训练获得的全局查询特征和局部查询特征进行拼接后,采用自注意力机制提取出相应的自注意力特征;采用交叉注意力机制,提取自注意力特征与全局特征序列中每个全局特征之间的第一交叉注意力特征,与局部特征序列中每个局部特征之间的第二交叉注意力特征;基于各第一交叉注意力特征和各第二交叉注意力特征,识别视频标签。
技术关键词
查询特征
交叉注意力机制
记忆单元
序列
大语言模型
视觉特征
文本
视频帧
样本
标签识别装置
转换器
特征提取模块
模型训练方法
解码器
标签识别方法
电子设备
系统为您推荐了相关专利信息
机器视觉识别
运动矢量场
巡检方法
矢量图
多光谱