摘要
本发明提供一种基于多模态大语言模型的视频理解方法及装置,涉及人工智能领域,其中方法包括:基于第一多模态大语言模型,对目标视频进行密集帧采样,得到多个视频帧,并生成每个视频帧对应的字幕文本;基于第二多模态大语言模型和多个视频帧对应的字幕文本,确定多个视频帧中与用户问题相关的多个关键帧;基于第三多模态大语言模型、用户问题和多个关键帧,得到针对目标视频的、用户问题的推理路径结果;其中,第一多模态大语言模型基于帧字幕数据集进行微调得到;第二多模态大语言模型基于关键帧选择数据集进行微调得到;第三多模态大语言模型基于推理路径数据集进行微调得到。从而提高视频理解的准确性和推理的可解释性。
技术关键词
大语言模型
多模态
视频理解方法
关键帧
视频帧
字幕
文本
非暂态计算机可读存储介质
数据
处理器
计算机程序产品
存储器
电子设备
模块
系统为您推荐了相关专利信息
融合特征
表格
图像块
大语言模型
多尺度特征提取
谐波减速器
伺服控制器
驱动伺服电机
加速寿命试验台
PLC控制模块
训练数据生成方法
多模态
语义
动态时间窗口
视频
关键点定位方法
人脸关键点定位
图像特征提取
视觉特征
文本
指控系统
数据处理模块
多模态
人机交互模块
语义角色标注