摘要
本发明属于视频检索领域,具体公开一种基于大模型的视频段检索方法、系统、终端及介质,将各个原始视频数据分别分割为多个视频段;将各个视频段分别输入预先训练的多模态大模型中,提取各个视频段的特征描述和目标视频帧,其中特征描述包括自然语言特征描述和多模态特征向量;将各个视频段的自然语言特征描述、多模态特征向量和目标视频帧进行结合获得视频段特征表示;将视频段特征表示存储到数据库;获取用户输入的检索信息,将检索信息与数据库中的各个视频段特征表示进行比对,筛选出与检索信息匹配的视频数据反馈给用户。本发明通过融合自然语言特征描述和多模态特征向量,以及精确提取目标视频帧,提高视频段检索的准确性。
技术关键词
视频段
检索方法
音频分类技术
光学字符识别技术
视频帧
视频特征提取
神经网络模型
语音识别技术
多模态
自然语言技术
音频特征提取
文本
频谱特征
数据
可读存储介质
检索系统
系统为您推荐了相关专利信息
医学知识库
检索装置
权限管理模块
高频RFID标签
资料
辅助学习系统
文本
手势识别单元
盲文点显器
图像处理模块
辅助诊断系统
表格
光学字符识别技术
文本
多模态
视频帧
安全隐患检测
算法模型
图像识别技术识别
气象