基于多模态大语言模型的视频理解方法及装置

AITNT
正文
推荐专利
基于多模态大语言模型的视频理解方法及装置
申请号:CN202510678362
申请日期:2025-05-26
公开号:CN120198838A
公开日期:2025-06-24
类型:发明专利
摘要
本发明提供一种基于多模态大语言模型的视频理解方法及装置,涉及人工智能领域,其中方法包括:基于第一多模态大语言模型,对目标视频进行密集帧采样,得到多个视频帧,并生成每个视频帧对应的字幕文本;基于第二多模态大语言模型和多个视频帧对应的字幕文本,确定多个视频帧中与用户问题相关的多个关键帧;基于第三多模态大语言模型、用户问题和多个关键帧,得到针对目标视频的、用户问题的推理路径结果;其中,第一多模态大语言模型基于帧字幕数据集进行微调得到;第二多模态大语言模型基于关键帧选择数据集进行微调得到;第三多模态大语言模型基于推理路径数据集进行微调得到。从而提高视频理解的准确性和推理的可解释性。
技术关键词
大语言模型 多模态 视频理解方法 关键帧 视频帧 字幕 文本 非暂态计算机可读存储介质 数据 处理器 计算机程序产品 存储器 电子设备 模块
系统为您推荐了相关专利信息
1
基于大语言模型的图像检测方法、图像识别方法、装置、电子设备、存储介质和程序产品
融合特征 表格 图像块 大语言模型 多尺度特征提取
2
一种紧凑对拖型谐波减速器加速寿命试验台机电控感结构
谐波减速器 伺服控制器 驱动伺服电机 加速寿命试验台 PLC控制模块
3
一种基于多模态语义对齐的视频训练数据生成方法
训练数据生成方法 多模态 语义 动态时间窗口 视频
4
基于开集目标检测的关键点定位方法、设备和存储介质
关键点定位方法 人脸关键点定位 图像特征提取 视觉特征 文本
5
一种基于大模型的无人机群智能指控系统
指控系统 数据处理模块 多模态 人机交互模块 语义角色标注
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号