摘要
本发明公开了一种基于多模态模型的视频内容管理方法、计算机设备及介质,属于多媒体技术领域,所述基于多模态模型的视频内容管理方法从至少一个视频片段中抽取原始关键帧图片后,获取原始关键帧图片的时间戳、时间点,对原始关键帧图片去除重复的图片内容、删除无效的图片内容,再去除黑屏图片,通过CLIP模型进行向量化处理,得到向量化数据,进而执行自动语音识别,最后生成视频元数据。所述基于多模态模型的视频内容管理方法能提供基于图片或者文字的视频内容检索服务,实现视频的精细化管理,并提供基于帧级的视频内容检索,提升视频内容检索的准确度,支持海量视频内容的毫秒级检索。
技术关键词
视频内容管理方法
关键帧
图片
多模态
视频元数据
语音识别文本
执行自动语音识别
计算机设备
内容检索服务
视频编码器
VAD算法
识别算法
分段
可读存储介质
直方图
特征点
音频编码