一种基于大语言模型的视频理解方法及系统

正文

推荐专利

一种基于大语言模型的视频理解方法及系统

申请号：CN202410825619

申请日期：2024-06-25

公开号：CN118865196B

公开日期：2025-08-29

类型：发明专利

摘要

本发明涉及视频处理技术领域，具体说是一种基于大语言模型的视频理解方法及系统，包括获取视频问答示例，形成视频问答数据集，对所述视频问答数据集进行预处理，获得视频问答数据集的向量表示特征，将已有文本‑图像模型改组为视频特征提取模型，利用所述视频特征提取模型处理向量表示特征，获取视频分析结果向量特征，利用大语言模型分析视频分析结果向量特征，得到对应视频问答示例的答案，本发明通过数据预处理、模型训练以及冻结的大语言模型来进行视频理解问答，可以提高回答准确率，并节省训练算力以及数据资源。

技术关键词

视频特征提取视频分析视频理解方法空间注意力网络时序文本大语言模型多模态信息参数图像数据矩阵理解系统视频处理程序答案通道语言分析

系统为您推荐了相关专利信息

基于数据分析的儿童自闭症行为识别方法、系统及介质

儿童自闭症时间序列特征多模态分类器模型三维卷积神经网络

一种基于多用户负荷时空关联的跨维度多尺度融合负荷预测方法

负荷预测方法多用户负荷预测模型变量电力系统负荷预测技术

一种园区安全风险预警及响应预案生成方法

预案生成方法风险预警方法长短期记忆网络时序特征多模态注意力

一种数据流通市场的数据质量监管平台及数据监管方法

时序序列压力数据监管方法噪声

一种同源PLL时钟下降低FIFO延时的实现方法及系统

读取等待时间时钟逻辑 FIFO存储单元电平转换电路

一种基于大语言模型的视频理解方法及系统

站点导航

APP 下载