一种视频理解的方法、装置及计算机程序产品

AITNT
正文
推荐专利
一种视频理解的方法、装置及计算机程序产品
申请号:CN202511093348
申请日期:2025-08-06
公开号:CN120598060B
公开日期:2025-12-09
类型:发明专利
摘要
本发明实施例提供一种视频理解的方法、装置及计算机程序产品,属于视频和大数据领域,该方法包括:获取目标视频的描述文本、查询文本令牌及视觉令牌;对所述描述文本进行LLM推理、检索及区域扩展得到候选时间区域;对所述候选时间区域进行密集采样、检索和区域合并得到连续时间区域;根据查询文本令牌及视觉令牌确定注意力矩阵;根据所述注意力矩阵对所述连续时间区域进行语义相关度评估、剪枝和位置编码重构得到时空特征;根据所述时空特征生成所述目标视频的回答。该方法实现了高效高精度的长视频理解。
技术关键词
令牌 注意力 语义相关度 文本 视觉 矩阵 计算机程序产品 重构 编码 答案 高效高精度 序列 视频帧 大语言模型 生成事件 连续性 模块 层级 解码
系统为您推荐了相关专利信息
1
一种薄煤层综采工作面异常预警方法及系统
实时图像 薄煤层综采工作面 顶板 异常状态 预警方法
2
一种基于大模型的污水处理镜检生物相诊断方法
诊断方法 污水处理工艺 电子摄像机 图片 生物
3
一种基于通道特定原型的弱监督语义分割方法
原型 语义分割方法 全局信息融合 通道 分支
4
一种基于机器视觉的数字孪生模型修正方法及系统
数字孪生模型 数据 流速 视觉 速率
5
面向企业级日程规划与知识库的智能协同问答系统及方法
语义向量 语义结构 自然语言 问答系统 多智能体协作
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号