摘要
本发明提供了一种基于大语言模型的动态迭代式长视频理解方法,步骤1,对视频理解任务进行数学建模与分析;步骤2,对用户输入的视频进行预处理,通过问答Agent进行初步推理;步骤3,进行自监督信息反馈,在推理过程中的每一步都引入评判Agent对答案进行认知;步骤4,采用问答准确率、平均检索帧数作为评价指标进行定量分析,验证方法的有效性;采用用户提供的任一视频和问题进行定性分析,验证结果是否符合预期。该方法通过模拟人类逻辑思维链的动态优化过程,实现了视频内容的智能分析与推理。本发明广泛应用于视频智能分析、视频问答系统、视频内容推荐等领域,有利于推动长视频快速理解与精准推理的技术发展。
技术关键词
视频搜索
视觉特征
关键帧
视频理解方法
生成答案
文本
大语言模型
预训练模型
视频内容推荐
视频智能分析
验证方法
视频帧
动态
图像
模块
问答系统
数学
有效性
系统为您推荐了相关专利信息
环肽
多模态特征融合
分子
深度学习模型
计算机辅助药物设计