摘要
本发明公开了一种基于长序列图像编码器的视频推理方法,属于计算机视觉领域,包括以下步骤:构建基于专家自主网络层AoE、密集型可学习残差连接、混合注意力的长序列图像编码器并进行训练;使用训练后的长序列图像编码器对视频编码器进行初始化,并进一步训练视频编码器;训练视频思维链推理模型,得到训练好的视频思维链推理模型;基于训练好的视频思维链推理模型进行视频推理。本发明可有效降低计算复杂度,提高图像特征提取效率和视频推理准确性,减少对采样技术依赖,提升模型可用性与安全性。
技术关键词
图像编码器
推理方法
视频编码器
注意力
序列
更新模型参数
样本
适配器
强化学习方法
图像特征提取
打包技术
掩码矩阵
蒸馏方法
采样技术
计算机视觉