摘要
本文提供了一种基于掩码的Transformer网络的端到端的视频描述生成方法,包括步骤:视频内容编码,通过卷积神经网络将输入视频内容帧编码为一组连续的视觉表示;特征提取与编码,利用设计的视频编码器提取视觉特征,并对视觉特征进行编码得到视觉信息编码;事件提案生成,利用锚点偏移机制为视频生成事件提案元组;视频描述生成,通过生成的事件提案元组与视频编码器输出的视觉信息加上掩码函数后,利用Transformer网络的解码器部分对每一个提案事件进行解码并生成描述;最后通过事件计数器,选择合适数量的事件提案描述输出,优化视频描述质量。与现有的使用Transformer网络的视频描述方法相比,通过加入掩码函数可以将模型的接受区域更好地限制在当前片段上,将视觉表示更好地集中在描述当前事件上;通过在输出端口添加了一个事件计数模块,帮助模型输出合适数量的提案描述,优化了生成事件太多或太少造成的糟糕可读性以及信息缺失问题。
技术关键词
视频编码器
事件计数器
视觉特征
生成事件
解码器
锚点
信息编码
生成方法
前馈神经网络
注意力机制
视频帧
矩阵
系统为您推荐了相关专利信息
sigmoid函数
关系建模
注意力
图像处理函数
解码器
水下图像增强方法
生成式对抗网络
水下图像数据
多通道
深度图
组件特征
推荐方法
图像处理模型
项目
文本处理模型
转换文本
大语言模型
语音生成方法
训练语音模型
音频