一种长视频理解方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202411483042

申请日期：2024-10-23

公开号：CN119380240B

公开日期：2025-12-02

类型：发明专利

摘要

本发明公开了一种长视频理解方法、装置、设备及存储介质，包括：获取用户的问题指令及对应问题指令的长视频；基于长视频的视觉内容和预先训练的基于多头自注意力机制的深度学习网络模型，输出语义特征向量集；对语义特征向量集中的语义特征向量进行合并，获得长视频的视觉特征；将长视频的帧位置和语义特征向量集输入至预先训练的U形神经网络模型中，确定视觉特征相对于长视频的预设帧的相对位置；将相对位置添加至对应的视觉特征中，生成视觉时序特征；将视觉时序特征和问题指令输入至预先训练的长视频理解模型中，输出问题指令对应的问题答案。利用该方法：利用时间定位的方式保证模型找到视频中正确的时间位置，从而增强长视频理解的能力。

技术关键词

视觉特征视频理解方法深度学习网络模型语义时序特征神经网络模型注意力机制指令计算机程序产品答案输出模块可读存储介质时间定位电子设备处理器通信

一种长视频理解方法、装置、设备及存储介质

站点导航

APP 下载