摘要
本发明公开一种自适应的多模态协同视频理解系统及方法,通过自适应的多模态协同处理框架解决长视频理解的挑战。不同于现有技术主要依赖增加采样密度的预训练模型或使用专有模型,本发明设计了一套完整的信息提取和融合机制,能够智能地整合视频中的多维度信息。系统首先通过解耦文本提示将用户查询解析为多维度的信息检索需求,然后通过并行化处理实现同时提取视频中的多模态信息,再采用基于相似度的自适应采样机制实现信息的精准提取以确保处理效率,最后通过信息融合与循环增强机制,使得系统能够持续优化理解结果,直到达到预期的理解深度。本发明能够节约更多的GPU资源,灵活度更高,完全依赖于开源模型,使用成本将极大减少。
技术关键词
融合处理器
理解系统
文本
信息检索
语音识别模型
物体
代表
视觉
视频理解方法
网络爬虫技术
编码
索引
多模态信息
关键帧
适配系统
推理机制