摘要
本发明公开了一种基于多模态大模型的多粒度视频检索方法、装置、计算机设备及可读存储介质,包括:首先获取用户输入的视频查询信息,进行意图识别得出查询领域,对查询信息和领域重写得到视频查询向量,再依据此向量和领域在预设检索视频知识库中检索,最终获得目标检索视频内容,旨在提升视频检索的效率和准确性,适应多领域检索需求。
技术关键词
检索视频内容
编码向量
视频检索方法
计算机设备
分段
多模态
行人检测
视频帧特征
意图识别
视频检索装置
字幕
可读存储介质
场景
文本编码器
视频编码器
镜头
系统为您推荐了相关专利信息
大语言模型
文本
指令组
计算机程序产品
计算机设备
仿真数据
定位方法
深度学习模型
配网
半自动标注方法
操作控制方法
基元
计算机可读指令
数据
标注策略