一种基于大语言模型的动态迭代式长视频理解方法

正文

推荐专利

申请号：CN202510355760

申请日期：2025-03-25

公开号：CN119863745B

公开日期：2025-07-11

类型：发明专利

摘要

本发明提供了一种基于大语言模型的动态迭代式长视频理解方法，步骤1，对视频理解任务进行数学建模与分析；步骤2，对用户输入的视频进行预处理，通过问答Agent进行初步推理；步骤3，进行自监督信息反馈，在推理过程中的每一步都引入评判Agent对答案进行认知；步骤4，采用问答准确率、平均检索帧数作为评价指标进行定量分析，验证方法的有效性；采用用户提供的任一视频和问题进行定性分析，验证结果是否符合预期。该方法通过模拟人类逻辑思维链的动态优化过程，实现了视频内容的智能分析与推理。本发明广泛应用于视频智能分析、视频问答系统、视频内容推荐等领域，有利于推动长视频快速理解与精准推理的技术发展。

技术关键词

视频搜索视觉特征关键帧视频理解方法生成答案文本大语言模型预训练模型视频内容推荐视频智能分析验证方法视频帧动态图像模块问答系统数学有效性

系统为您推荐了相关专利信息

应用于沉浸展演的便携式空间定位遥感交互控制系统

语义特征提取交互控制系统关键帧图案意图

基于置信因子的无人机地下空间多模态鲁棒定位方法

鲁棒定位方法激光雷达因子多模态无人机

一种基于深度学习的纪录片自动调色系统及方法

场景自动调色方法语义特征深度学习模型图像

一种基于三维参考图的前下视高精度目标定位系统

关键帧约束卡尔曼滤波图像无人机坐标

一种用于环肽渗透性预测的多模态分子表示学习方法

环肽多模态特征融合分子深度学习模型计算机辅助药物设计

一种基于大语言模型的动态迭代式长视频理解方法

站点导航

APP 下载