一种基于大语言模型的视频理解方法及系统

AITNT
正文
推荐专利
一种基于大语言模型的视频理解方法及系统
申请号:CN202410825619
申请日期:2024-06-25
公开号:CN118865196B
公开日期:2025-08-29
类型:发明专利
摘要
本发明涉及视频处理技术领域,具体说是一种基于大语言模型的视频理解方法及系统,包括获取视频问答示例,形成视频问答数据集,对所述视频问答数据集进行预处理,获得视频问答数据集的向量表示特征,将已有文本‑图像模型改组为视频特征提取模型,利用所述视频特征提取模型处理向量表示特征,获取视频分析结果向量特征,利用大语言模型分析视频分析结果向量特征,得到对应视频问答示例的答案,本发明通过数据预处理、模型训练以及冻结的大语言模型来进行视频理解问答,可以提高回答准确率,并节省训练算力以及数据资源。
技术关键词
视频特征提取 视频分析 视频理解方法 空间注意力网络 时序 文本 大语言模型 多模态信息 参数 图像 数据 矩阵 理解系统 视频处理程序 答案 通道 语言分析
系统为您推荐了相关专利信息
1
基于数据分析的儿童自闭症行为识别方法、系统及介质
儿童自闭症 时间序列特征 多模态 分类器模型 三维卷积神经网络
2
一种基于多用户负荷时空关联的跨维度多尺度融合负荷预测方法
负荷预测方法 多用户 负荷预测模型 变量 电力系统负荷预测技术
3
一种园区安全风险预警及响应预案生成方法
预案生成方法 风险预警方法 长短期记忆网络 时序特征 多模态注意力
4
一种数据流通市场的数据质量监管平台及数据监管方法
时序 序列 压力 数据监管方法 噪声
5
一种同源PLL时钟下降低FIFO延时的实现方法及系统
读取等待时间 时钟 逻辑 FIFO存储单元 电平转换电路
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号