摘要
本申请公开了一种视频理解问答方法、装置及存储介质,属于问答技术领域。方法包括:获取视频数据和用户针对视频数据的问题;根据视频数据中视频帧之间的特征差异抽取多个关键帧图像;提取关键帧图像的图像特征以构建图像向量库,以及提取关键帧图像的内容信息以构建知识图谱和文本向量库;通过大语言模型基于图像向量库、知识图谱和文本向量库生成问题的答案。本申请通过构建图像向量库、知识图谱和文本向量库,不仅从视觉角度对视频内容进行量化描述,还通过知识图谱挖掘了视频内容的语义关系和逻辑结构,更全面深入地挖掘和整合视频语义知识,结合上述多模态数据联合推理,能够更全面地理解用户问题,提高了问答的准确性。
技术关键词
关键帧
大语言模型
构建知识图谱
问答方法
对象检测
答案
文本
事件特征
非暂态计算机可读存储介质
知识图谱挖掘
视频帧
问答技术
三元组
图像编码器
数据
问答装置
处理器