基于检索增强的第一视角视频描述系统

AITNT
正文
推荐专利
基于检索增强的第一视角视频描述系统
申请号:CN202411111999
申请日期:2024-08-14
公开号:CN119226567A
公开日期:2024-12-31
类型:发明专利
摘要
本发明属于视频处理技术领域,具体为基于检索增强的第一视角视频描述系统。本发明包括:跨视角检索模块、视频编码器、跨模态文本解码器;跨视角检索模块通过构建的第一视角与第三视角视频配对数据,对齐第一视角与第三视角的视觉与文本特征,实现第一视角跨模态、跨视角检索第三视角视频数据辅助第一视角视频描述生成。视频编码器将视频进行时空协同特征提取,通过特征压缩采样器将视频特征降维;跨模态文本解码器采用大语言模型结合跨模态注意力层,将输入文本不断聚焦视觉模态信息实现跨模态信息交互,输出第一视角视频描述。本发明利用第三视角的视频与文本信息,在仅使用极少量第三视角数据作为辅助,可显著提升第一视角视频描述准确率。
技术关键词
视角 视觉特征提取 跨模态 文本编码器 视频编码器 视频特征提取 采样器 解码器 生成流水线 数据 代表 大语言模型 样本 交叉注意力机制 模块
系统为您推荐了相关专利信息
1
对话改写方法、装置、计算机设备及存储介质
改写方法 文本编码器 意图 计算机可读指令 编辑
2
生活源低值可回收物高效智能分拣系统
高效智能分拣系统 光谱匹配 三维点云数据 参数 修正系数矩阵
3
三维感知模型训练方法及电子设备
三维感知模型 深度图 像素点 深度值 颜色
4
一种融合多模态的PCB缺陷检测方法和系统
缺陷检测方法 特征提取模块 注意力 多分支 融合多模态特征
5
坡口切割方法、装置及系统
坡口切割方法 点云 三维模型 工件 分辨率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号