针对视频语言大模型的多视频联合理解系统

正文

推荐专利

针对视频语言大模型的多视频联合理解系统

申请号：CN202510598764

申请日期：2025-05-09

公开号：CN120472372A

公开日期：2025-08-12

类型：发明专利

摘要

一种针对视频语言大模型的多视频联合理解系统，包括：视频结构化模块、图融合模块、视觉映射器、视觉编码器和词嵌入层，通过结构化视频表征与图融合机制，避免冗余视觉信息的无效输入，降低模型输入负载，实现数据高效利用；通过跨视频时空信息的整合，有效缓解单视频知识不完整性问题，减少幻觉性回答，提升模型对复杂任务的处理能力，能够应用于多视频问答、多视频内容理解、多视频摘要、跨视频事件分析等多种人工智能应用领域。

技术关键词

视频理解系统视觉定位器文本关键帧 ID标签视觉特征注意力机制解析器场景三元组多层感知机跨模态时序检测器关系语义模块

系统为您推荐了相关专利信息

一种混合搜索方法、装置、设备及存储介质

混合搜索方法关键词语句搜索算法索引

订单配送业务的处理方法及装置、存储介质、电子设备

订单语义向量地址转换数据日期

关于音频信息混淆可逆对抗样本的隐私保护方法、装置

自动语音识别系统对抗性隐私保护方法傅里叶变换函数掩码矩阵

基于意图识别的业务处理方法、装置、电子设备及介质

意图识别模型界面文本编码前端组件

基于特征增强与语言感知属性引导的视觉定位方法

视觉定位方法语义特征模态特征对象跨模态

针对视频语言大模型的多视频联合理解系统

站点导航

APP 下载