基于检索增强的第一视角视频描述系统

正文

推荐专利

基于检索增强的第一视角视频描述系统

申请号：CN202411111999

申请日期：2024-08-14

公开号：CN119226567A

公开日期：2024-12-31

类型：发明专利

摘要

本发明属于视频处理技术领域，具体为基于检索增强的第一视角视频描述系统。本发明包括：跨视角检索模块、视频编码器、跨模态文本解码器；跨视角检索模块通过构建的第一视角与第三视角视频配对数据，对齐第一视角与第三视角的视觉与文本特征，实现第一视角跨模态、跨视角检索第三视角视频数据辅助第一视角视频描述生成。视频编码器将视频进行时空协同特征提取，通过特征压缩采样器将视频特征降维；跨模态文本解码器采用大语言模型结合跨模态注意力层，将输入文本不断聚焦视觉模态信息实现跨模态信息交互，输出第一视角视频描述。本发明利用第三视角的视频与文本信息，在仅使用极少量第三视角数据作为辅助，可显著提升第一视角视频描述准确率。

技术关键词

视角视觉特征提取跨模态文本编码器视频编码器视频特征提取采样器解码器生成流水线数据代表大语言模型样本交叉注意力机制模块

系统为您推荐了相关专利信息

对话改写方法、装置、计算机设备及存储介质

改写方法文本编码器意图计算机可读指令编辑

生活源低值可回收物高效智能分拣系统

高效智能分拣系统光谱匹配三维点云数据参数修正系数矩阵

三维感知模型训练方法及电子设备

三维感知模型深度图像素点深度值颜色

一种融合多模态的PCB缺陷检测方法和系统

缺陷检测方法特征提取模块注意力多分支融合多模态特征

坡口切割方法、装置及系统

坡口切割方法点云三维模型工件分辨率

基于检索增强的第一视角视频描述系统

站点导航

APP 下载