摘要
本公开提供了视频理解方法、装置、电子设备、存储介质及程序产品,涉及深度学习、计算机视觉、大模型及自然语言处理等人工智能技术领域。具体实现方案为:对待处理视频进行镜头分割,得到待处理视频的至少一个镜头片段;分别对至少一个镜头片段进行目标运动幅度分析,得到至少一个镜头片段各自的运动幅度信息;基于至少一个镜头片段各自的运动幅度信息,从对应镜头片段中提取关键帧;基于至少一个镜头片段各自的关键帧的多模态特征,对待处理视频进行视频内容理解,得到待处理视频的描述信息。通过实施本公开实施例,可以优化视频理解效果。
技术关键词
镜头
关键帧
视频理解方法
运动
分析方法
光流特征
背景差分法
大语言模型
图像
光流法
像素点
多模态特征
分析单元
动态
成分分析
分析模块
电子设备
系统为您推荐了相关专利信息
短视频
信息检测方法
关键帧
音频特征
多层感知机
温度场监测系统
温度传感器阵列
注意力机制
深度学习算法
流量动态检测方法
数据分析方法
DBSCAN算法
物联网设备
深度学习算法
子模块