摘要
本发明公开了一种模型训练方法、装置、电子设备和存储介质。包括:基于目标训练时空分辨率对原始视频帧序列进行采样,得到目标训练数据;将目标训练数据输入教师模型,通过动态令牌选择生成目标令牌集合以及通过前向传播生成教师训练特征;根据教师模型的目标自注意力权重对目标令牌集合进行多尺度裁剪,生成至少三种不同令牌数量的学生训练掩码;将目标训练数据和不同学生训练掩码输入学生模型进行前向传播,生成学生训练特征;将学生训练特征与教师训练特征进行对齐蒸馏,以得到目标学生模型。解决视频理解模型在下游灵活推理上的不足,利用高时空分辨率下的动态令牌选择和多尺度掩码训练,使得模型能在各种下游计算量限制下取得较优性能。
技术关键词
训练特征
教师
学生
动态令牌
注意力
模型训练方法
中间层
编码块
视频帧
多尺度
前馈神经网络
编码器
归一化模块
模型训练模块
蒸馏
数据
高时空分辨率
电子设备
系统为您推荐了相关专利信息
相似性学习方法
多头注意力机制
节点特征
前馈神经网络
矩阵
测绘设备
三维地理场景
异构地理信息
地理国情普查
遥感影像数据
命名实体识别方法
分类神经网络
分类网络
患者
数据
仿真实训系统
轨道交通工程
虚拟现实场景
分析模块
地铁车站施工