摘要
本申请涉及一种视频监控分析方法、系统及存储介质,属于视频分析与处理技术领域。本申请通过获取待分析的视频文件,并对视频文件进行抽帧处理,得到视频帧数据;使用深度学习模型提取视频帧数据中的视觉特征;对用户输入的文本提示进行文本特征提取,生成对应的文本特征;将视觉特征以及文本特征输入到预训练的深度学习模型中,生成多模态融合数据,最终输出自然语言描述的文本信息。本申请能够将视频分析从检测提升到理解,使系统能够分析事件因果关系,视频内容可以文字形式进行总结和输出。相关工作人员不再需要面对冗长的原始视频,而是能够快速掌握监控视频的核心信息,不仅大大节省了人工参与,还显著提高了效率。
技术关键词
监控分析方法
深度学习模型
视觉特征
文本
视频监控分析系统
大语言模型
多模态
视频帧
图谱
数据
时间序列预测模型
视频解码
视频分析
生成自然语言
交叉注意力机制
关系
分析单元
系统为您推荐了相关专利信息
白蚁
加权欧氏距离
深度Q网络
强化学习模型
动态管理方法