摘要
本发明属于视频处理技术领域,具体为基于检索增强的第一视角视频描述系统。本发明包括:跨视角检索模块、视频编码器、跨模态文本解码器;跨视角检索模块通过构建的第一视角与第三视角视频配对数据,对齐第一视角与第三视角的视觉与文本特征,实现第一视角跨模态、跨视角检索第三视角视频数据辅助第一视角视频描述生成。视频编码器将视频进行时空协同特征提取,通过特征压缩采样器将视频特征降维;跨模态文本解码器采用大语言模型结合跨模态注意力层,将输入文本不断聚焦视觉模态信息实现跨模态信息交互,输出第一视角视频描述。本发明利用第三视角的视频与文本信息,在仅使用极少量第三视角数据作为辅助,可显著提升第一视角视频描述准确率。
技术关键词
视角
视觉特征提取
跨模态
文本编码器
视频编码器
视频特征提取
采样器
解码器
生成流水线
数据
代表
大语言模型
样本
交叉注意力机制
模块
系统为您推荐了相关专利信息
高效智能分拣系统
光谱匹配
三维点云数据
参数
修正系数矩阵
缺陷检测方法
特征提取模块
注意力
多分支
融合多模态特征