摘要
本发明公开了一种基于目标存在性的关键帧筛选和视频问答方法、装置及存储介质,包括:(1)对输入视频流以固定采样率进行均匀采样,生成时序连续的帧序列集合;(2)根据用户问题和输入视频流生成目标存在性表格,提示大语言模型根据目标存在性表格进行帧筛选,得到候选帧;(3)将候选帧按时间顺序拼接为单张合成图像,将拼接图像与问题输入大语言模型,输出精炼的关键帧序列;(4)将精炼的关键帧序列按照步骤(3)中的图像合成方法拼接成为单张合成图像,再将拼接图像与用户问题输入大语言模型,输出含答案选项、推理解释及置信度评分的JSON格式结构化响应。利用本发明,可以保全细粒度动态动作、消除帧筛选敏感性、增强视觉感知。
技术关键词
视频问答方法
关键帧
大语言模型
视频流
图像
序列
表格
白色边框
描述符
采样率
问答装置
答案
格式
处理器
时序
可读存储介质
视频帧
视觉
存储器
系统为您推荐了相关专利信息
标志物
检测芯片
图像处理装置
创伤性脑损伤
图像采集装置
单目相机
地标
模型预测控制算法
轨迹规划算法
坐标系
遥感图像数据
点云语义分割方法
融合特征
特征提取模块
点云特征
工件识别装置
喷涂系统
工作状态显示装置
输送链
解码系统