一种基于掩码Transformer的端到端密集视频描述生成方法

AITNT
正文
推荐专利
一种基于掩码Transformer的端到端密集视频描述生成方法
申请号:CN202410780296
申请日期:2024-06-17
公开号:CN118741267A
公开日期:2024-10-01
类型:发明专利
摘要
本文提供了一种基于掩码的Transformer网络的端到端的视频描述生成方法,包括步骤:视频内容编码,通过卷积神经网络将输入视频内容帧编码为一组连续的视觉表示;特征提取与编码,利用设计的视频编码器提取视觉特征,并对视觉特征进行编码得到视觉信息编码;事件提案生成,利用锚点偏移机制为视频生成事件提案元组;视频描述生成,通过生成的事件提案元组与视频编码器输出的视觉信息加上掩码函数后,利用Transformer网络的解码器部分对每一个提案事件进行解码并生成描述;最后通过事件计数器,选择合适数量的事件提案描述输出,优化视频描述质量。与现有的使用Transformer网络的视频描述方法相比,通过加入掩码函数可以将模型的接受区域更好地限制在当前片段上,将视觉表示更好地集中在描述当前事件上;通过在输出端口添加了一个事件计数模块,帮助模型输出合适数量的提案描述,优化了生成事件太多或太少造成的糟糕可读性以及信息缺失问题。
技术关键词
视频编码器 事件计数器 视觉特征 生成事件 解码器 锚点 信息编码 生成方法 前馈神经网络 注意力机制 视频帧 矩阵
系统为您推荐了相关专利信息
1
一种钢琴机器人演奏任务的黑键检测定位方法
检测定位方法 掩膜 像素点 样本 机器人
2
基于并联注意残差U-Net的广域红外小目标检测方法
sigmoid函数 关系建模 注意力 图像处理函数 解码器
3
一种基于多通道介质传输先验的水下图像增强方法及设备
水下图像增强方法 生成式对抗网络 水下图像数据 多通道 深度图
4
一种开发组件推荐方法、装置、设备及介质
组件特征 推荐方法 图像处理模型 项目 文本处理模型
5
基于大语言模型的语音生成方法、设备及存储介质
转换文本 大语言模型 语音生成方法 训练语音模型 音频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号