摘要
本公开提供了视频理解方法、装置、电子设备及存储介质,涉及深度学习、大模型、计算机视觉以及自然语言处理等人工智能领域。其中的方法可包括:对待处理视频进行采样,得到采样出的M帧原始图像,M为大于1的正整数;获取待处理视频对应的音频的文本识别结果;根据各原始图像以及所述文本识别结果确定出目标输入信息;将目标输入信息输入视频理解模型,得到待处理视频对应的视频理解结果。
技术关键词
视觉特征
文本识别
视频理解方法
图像
音频识别模块
指令
自动语音识别
采样模块
序列
电子设备
计算机程序产品
计算机视觉
处理器通信
自然语言
可读存储介质
系统为您推荐了相关专利信息
多轴机器人
奶牛乳头
涂膜设备
挤奶设备
消毒设备
轮廓提取方法
边缘检测
复杂度
图像噪声水平
纹理特征
融合置信度
像素点
图像处理方法
多模态
可见光图像