摘要
本发明提供一种视频处理方法、装置、电子设备及存储介质,涉及视频处理技术领域,所述方法包括:获取待处理视频,以及与所述待处理视频相关的提问问题;对所述待处理视频进行拆帧处理,得到初始帧集;基于所述初始帧集中视频帧对应的灰度图序列去除冗余视频帧,得到候选帧集;对所述提问问题的文本进行关键词处理,得到关键词集;基于所述候选帧集和关键词集的关联程度序列从所述候选帧集中选择关键帧,并将其作为关键帧集;将所述关键帧集和所述提问问题输入预先构建的多模态视频理解大模型,得到与所述提问问题对应的问答结果。从而防止大量无关的冗余帧作为关键帧,同时避免关键细节帧的丢失,进而提高关键帧提取的准确性。
技术关键词
视频帧
关键帧
关键词
序列
实体识别模型
冗余
文本
多模态
列表
电子设备
存储器
分词
图像
分析模块
标签
处理器
程序
系统为您推荐了相关专利信息
检索视频内容
编码向量
视频检索方法
计算机设备
分段
数据标注方法
视觉传感器
时序特征
图像
注意力编码器
员工数据管理系统
考勤数据
考勤模块
办公终端
门禁