摘要
本发明公开了Transformer与CNN相结合的视频插帧方法。本发明的网络结构包括特征提取网络、光流估计网络和融合与细化网络。特征提取网络不同阶段的输出作为不同尺度的特征,光流估计网络通过对前后两帧视频图像进行特征提取和运动估计,生成前后两帧到中间帧的双向光流信息,融合与细化网络输入为特征提取网络提取的不同阶段的特征信息、光流估计网络生成的输出光流,输出为一张掩膜图像以及一副残差图像。原始图像经过光流的绘制,再通过掩膜做加权最后加上残差图像,输出最终的插帧图像。本发明通过Transformer模型与CNN网络相结合,能够从整个图像范围内提取丰富的语义信息,并有效地捕捉帧间的运动关系。
技术关键词
特征提取网络
视频插帧方法
阶段
运动估计
图像全局特征
位置编码信息
掩膜
多尺度特征提取
分支
多头注意力机制
图像多尺度
网络结构
卷积模块
语义特征
令牌
滑动窗口
图像分割
系统为您推荐了相关专利信息
空间数据匹配方法
城市信息模型
编辑距离算法
元素
编码技术
Pearson相关系数
多视角特征
特征提取网络
解码方法
联合特征提取
提示方法
预训练模型
数据标签
图像识别方法
前馈神经网络