摘要
本发明实施例提供一种视频理解的方法、装置及计算机程序产品,属于视频和大数据领域,该方法包括:获取目标视频的描述文本、查询文本令牌及视觉令牌;对所述描述文本进行LLM推理、检索及区域扩展得到候选时间区域;对所述候选时间区域进行密集采样、检索和区域合并得到连续时间区域;根据查询文本令牌及视觉令牌确定注意力矩阵;根据所述注意力矩阵对所述连续时间区域进行语义相关度评估、剪枝和位置编码重构得到时空特征;根据所述时空特征生成所述目标视频的回答。该方法实现了高效高精度的长视频理解。
技术关键词
令牌
注意力
语义相关度
文本
视觉
矩阵
计算机程序产品
重构
编码
答案
高效高精度
序列
视频帧
大语言模型
生成事件
连续性
模块
层级
解码
系统为您推荐了相关专利信息
实时图像
薄煤层综采工作面
顶板
异常状态
预警方法
语义向量
语义结构
自然语言
问答系统
多智能体协作