自适应的多模态协同视频理解系统及方法

正文

推荐专利

自适应的多模态协同视频理解系统及方法

申请号：CN202411959661

申请日期：2024-12-30

公开号：CN119723423A

公开日期：2025-03-28

类型：发明专利

摘要

本发明公开一种自适应的多模态协同视频理解系统及方法，通过自适应的多模态协同处理框架解决长视频理解的挑战。不同于现有技术主要依赖增加采样密度的预训练模型或使用专有模型，本发明设计了一套完整的信息提取和融合机制，能够智能地整合视频中的多维度信息。系统首先通过解耦文本提示将用户查询解析为多维度的信息检索需求，然后通过并行化处理实现同时提取视频中的多模态信息，再采用基于相似度的自适应采样机制实现信息的精准提取以确保处理效率，最后通过信息融合与循环增强机制，使得系统能够持续优化理解结果，直到达到预期的理解深度。本发明能够节约更多的GPU资源，灵活度更高，完全依赖于开源模型，使用成本将极大减少。

技术关键词

融合处理器理解系统文本信息检索语音识别模型物体代表视觉视频理解方法网络爬虫技术编码索引多模态信息关键帧适配系统推理机制

自适应的多模态协同视频理解系统及方法

站点导航

APP 下载