基于多模态大语言模型的视频理解方法及装置

正文

推荐专利

申请号：CN202510678362

申请日期：2025-05-26

公开号：CN120198838A

公开日期：2025-06-24

类型：发明专利

摘要

本发明提供一种基于多模态大语言模型的视频理解方法及装置，涉及人工智能领域，其中方法包括：基于第一多模态大语言模型，对目标视频进行密集帧采样，得到多个视频帧，并生成每个视频帧对应的字幕文本；基于第二多模态大语言模型和多个视频帧对应的字幕文本，确定多个视频帧中与用户问题相关的多个关键帧；基于第三多模态大语言模型、用户问题和多个关键帧，得到针对目标视频的、用户问题的推理路径结果；其中，第一多模态大语言模型基于帧字幕数据集进行微调得到；第二多模态大语言模型基于关键帧选择数据集进行微调得到；第三多模态大语言模型基于推理路径数据集进行微调得到。从而提高视频理解的准确性和推理的可解释性。

技术关键词

大语言模型多模态视频理解方法关键帧视频帧字幕文本非暂态计算机可读存储介质数据处理器计算机程序产品存储器电子设备模块

系统为您推荐了相关专利信息

基于大语言模型的图像检测方法、图像识别方法、装置、电子设备、存储介质和程序产品

融合特征表格图像块大语言模型多尺度特征提取

一种紧凑对拖型谐波减速器加速寿命试验台机电控感结构

谐波减速器伺服控制器驱动伺服电机加速寿命试验台 PLC控制模块

一种基于多模态语义对齐的视频训练数据生成方法

训练数据生成方法多模态语义动态时间窗口视频

基于开集目标检测的关键点定位方法、设备和存储介质

关键点定位方法人脸关键点定位图像特征提取视觉特征文本

一种基于大模型的无人机群智能指控系统

指控系统数据处理模块多模态人机交互模块语义角色标注

基于多模态大语言模型的视频理解方法及装置

站点导航

APP 下载