一种基于细粒度层级事件特征的视频语义理解模型及生成方法

正文

推荐专利

申请号：CN202410804488

申请日期：2024-06-21

公开号：CN118537861A

公开日期：2024-08-23

类型：发明专利

摘要

本发明包括视觉编码器、图像特征压缩器、预训练的BERT模型、事件特征编码层和大语言模型。视觉编码器将视频帧编码为帧特征；事件特征编码层提取和筛选事件特征；事件特征提取器通过自适应滑动窗口从视频中提取耦合的细粒度事件特征，事件特征感知器根据用户输入的问题筛选相关的事件特征。本发明使用层级放置的事件特征提取器充分考虑视频帧之间的关联，将视频信息编码为细粒度的层级事件特征，解决了现有模型存在的粗粒度特征提取问题，使用事件特征感知器从每一层事件特征提取器输出的事件特征中选择与用户查询最相关的特征，大幅减少了视频的特征令牌数量，辅以相似帧融合模块和图像特征压缩器，解决了长视频理解困难问题。

技术关键词

事件特征语义理解模型特征提取器视频帧特征压缩器大语言模型生成方法层级滑动窗口图像交叉注意力机制编码视频帧 BERT模型微调技术线性参数

一种基于细粒度层级事件特征的视频语义理解模型及生成方法

站点导航

APP 下载