一种视频理解的方法、装置及计算机程序产品

正文

推荐专利

申请号：CN202511093348

申请日期：2025-08-06

公开号：CN120598060B

公开日期：2025-12-09

类型：发明专利

摘要

本发明实施例提供一种视频理解的方法、装置及计算机程序产品，属于视频和大数据领域，该方法包括：获取目标视频的描述文本、查询文本令牌及视觉令牌；对所述描述文本进行LLM推理、检索及区域扩展得到候选时间区域；对所述候选时间区域进行密集采样、检索和区域合并得到连续时间区域；根据查询文本令牌及视觉令牌确定注意力矩阵；根据所述注意力矩阵对所述连续时间区域进行语义相关度评估、剪枝和位置编码重构得到时空特征；根据所述时空特征生成所述目标视频的回答。该方法实现了高效高精度的长视频理解。

技术关键词

令牌注意力语义相关度文本视觉矩阵计算机程序产品重构编码答案高效高精度序列视频帧大语言模型生成事件连续性模块层级解码

系统为您推荐了相关专利信息

一种薄煤层综采工作面异常预警方法及系统

实时图像薄煤层综采工作面顶板异常状态预警方法

一种基于大模型的污水处理镜检生物相诊断方法

诊断方法污水处理工艺电子摄像机图片生物

一种基于通道特定原型的弱监督语义分割方法

原型语义分割方法全局信息融合通道分支

一种基于机器视觉的数字孪生模型修正方法及系统

数字孪生模型数据流速视觉速率

面向企业级日程规划与知识库的智能协同问答系统及方法

语义向量语义结构自然语言问答系统多智能体协作

一种视频理解的方法、装置及计算机程序产品

站点导航

APP 下载