摘要
本发明提供了一种基于城市多模态大模型的视频事件分析方法及系统,涉及智慧城市相关技术领域,包括以下:S1、获取待进行事件分析的原始输入视频和对应的指令文本;S2、依次提取原始输入视频中的每帧图像,根据帧图像之间的相似度对其进行筛选处理,得到多帧静态图像;S3、根据帧位置信息之间的连续性依次在对应的帧静态图像之间填充空白帧,并拼接形成视觉嵌入特征;S4、对指令文本进行处理得到指令文本嵌入特征;S5、将视觉嵌入特征和对应的指令文本嵌入特征进行统一位置编码,得到统一位置编码的嵌入特征;S6、将统一位置编码的嵌入特征输入到城市多模态大模型中的大语言模型中,得到事件分析结果的响应预测文本。
技术关键词
嵌入特征
事件分析方法
多模态
文本
视觉
指令
连续性
图像块
数据采集模块
编码模块
分析系统
监控设备
分析模块
视频帧
特征值
分词
画面
系统为您推荐了相关专利信息
动作识别方法
视频特征向量
动作识别装置
语义
文本编码器
机器人控制方法
命令
机器人部件
文本
麦克风模块
图像失真校正
编码器
无监督深度学习
多层感知器
空间变换网络