一种基于大模型的视频段检索方法、系统、终端及介质

正文

推荐专利

申请号：CN202411628315

申请日期：2024-11-14

公开号：CN119829794A

公开日期：2025-04-15

类型：发明专利

摘要

本发明属于视频检索领域，具体公开一种基于大模型的视频段检索方法、系统、终端及介质，将各个原始视频数据分别分割为多个视频段；将各个视频段分别输入预先训练的多模态大模型中，提取各个视频段的特征描述和目标视频帧，其中特征描述包括自然语言特征描述和多模态特征向量；将各个视频段的自然语言特征描述、多模态特征向量和目标视频帧进行结合获得视频段特征表示；将视频段特征表示存储到数据库；获取用户输入的检索信息，将检索信息与数据库中的各个视频段特征表示进行比对，筛选出与检索信息匹配的视频数据反馈给用户。本发明通过融合自然语言特征描述和多模态特征向量，以及精确提取目标视频帧，提高视频段检索的准确性。

技术关键词

视频段检索方法音频分类技术光学字符识别技术视频帧视频特征提取神经网络模型语音识别技术多模态自然语言技术音频特征提取文本频谱特征数据可读存储介质检索系统

系统为您推荐了相关专利信息

基于AI与RFID技术的医学文献资料向量化检索装置和方法

医学知识库检索装置权限管理模块高频RFID标签资料

一种基于多模态大模型的视频理解方法、设备及介质

视频理解方法视频帧多模态序列视觉特征

一种盲文辅助学习系统及方法

辅助学习系统文本手势识别单元盲文点显器图像处理模块

一种基于多模态大模型的疾病预测与辅助诊断系统构建方法及系统

辅助诊断系统表格光学字符识别技术文本多模态

一种基于数据分析的监控视频分类处理推送方法

视频帧安全隐患检测算法模型图像识别技术识别气象

一种基于大模型的视频段检索方法、系统、终端及介质

站点导航

APP 下载