摘要
一种针对视频语言大模型的多视频联合理解系统,包括:视频结构化模块、图融合模块、视觉映射器、视觉编码器和词嵌入层,通过结构化视频表征与图融合机制,避免冗余视觉信息的无效输入,降低模型输入负载,实现数据高效利用;通过跨视频时空信息的整合,有效缓解单视频知识不完整性问题,减少幻觉性回答,提升模型对复杂任务的处理能力,能够应用于多视频问答、多视频内容理解、多视频摘要、跨视频事件分析等多种人工智能应用领域。
技术关键词
视频
理解系统
视觉定位器
文本
关键帧
ID标签
视觉特征
注意力机制
解析器
场景
三元组
多层感知机
跨模态
时序
检测器
关系
语义
模块
系统为您推荐了相关专利信息
自动语音识别系统
对抗性
隐私保护方法
傅里叶变换函数
掩码矩阵