一种基于掩码Transformer的端到端密集视频描述生成方法

正文

推荐专利

申请号：CN202410780296

申请日期：2024-06-17

公开号：CN118741267A

公开日期：2024-10-01

类型：发明专利

摘要

本文提供了一种基于掩码的Transformer网络的端到端的视频描述生成方法，包括步骤：视频内容编码，通过卷积神经网络将输入视频内容帧编码为一组连续的视觉表示；特征提取与编码，利用设计的视频编码器提取视觉特征，并对视觉特征进行编码得到视觉信息编码；事件提案生成，利用锚点偏移机制为视频生成事件提案元组；视频描述生成，通过生成的事件提案元组与视频编码器输出的视觉信息加上掩码函数后，利用Transformer网络的解码器部分对每一个提案事件进行解码并生成描述；最后通过事件计数器，选择合适数量的事件提案描述输出，优化视频描述质量。与现有的使用Transformer网络的视频描述方法相比，通过加入掩码函数可以将模型的接受区域更好地限制在当前片段上，将视觉表示更好地集中在描述当前事件上；通过在输出端口添加了一个事件计数模块，帮助模型输出合适数量的提案描述，优化了生成事件太多或太少造成的糟糕可读性以及信息缺失问题。

技术关键词

视频编码器事件计数器视觉特征生成事件解码器锚点信息编码生成方法前馈神经网络注意力机制视频帧矩阵

系统为您推荐了相关专利信息

一种钢琴机器人演奏任务的黑键检测定位方法

检测定位方法掩膜像素点样本机器人

基于并联注意残差U-Net的广域红外小目标检测方法

sigmoid函数关系建模注意力图像处理函数解码器

一种基于多通道介质传输先验的水下图像增强方法及设备

水下图像增强方法生成式对抗网络水下图像数据多通道深度图

一种开发组件推荐方法、装置、设备及介质

组件特征推荐方法图像处理模型项目文本处理模型

基于大语言模型的语音生成方法、设备及存储介质

转换文本大语言模型语音生成方法训练语音模型音频

一种基于掩码Transformer的端到端密集视频描述生成方法

站点导航

APP 下载