一种基于城市多模态大模型的视频事件分析方法及系统

正文

推荐专利

申请号：CN202510760491

申请日期：2025-06-09

公开号：CN120747581A

公开日期：2025-10-03

类型：发明专利

摘要

本发明提供了一种基于城市多模态大模型的视频事件分析方法及系统，涉及智慧城市相关技术领域，包括以下：S1、获取待进行事件分析的原始输入视频和对应的指令文本；S2、依次提取原始输入视频中的每帧图像，根据帧图像之间的相似度对其进行筛选处理，得到多帧静态图像；S3、根据帧位置信息之间的连续性依次在对应的帧静态图像之间填充空白帧，并拼接形成视觉嵌入特征；S4、对指令文本进行处理得到指令文本嵌入特征；S5、将视觉嵌入特征和对应的指令文本嵌入特征进行统一位置编码，得到统一位置编码的嵌入特征；S6、将统一位置编码的嵌入特征输入到城市多模态大模型中的大语言模型中，得到事件分析结果的响应预测文本。

技术关键词

嵌入特征事件分析方法多模态文本视觉指令连续性图像块数据采集模块编码模块分析系统监控设备分析模块视频帧特征值分词画面

系统为您推荐了相关专利信息

一种基于动作快慢特征的多模态鸟类动作识别方法及装置

动作识别方法视频特征向量动作识别装置语义文本编码器

基于深度学习的遥感图文检索方法、系统、设备及介质

图文检索方法文本多尺度跨模态特征提取模块

基于通用命令的机器人控制方法、系统及电子设备

机器人控制方法命令机器人部件文本麦克风模块

基于无监督深度学习的多模态dMRI图像失真校正系统

图像失真校正编码器无监督深度学习多层感知器空间变换网络

一种文本处理方法、装置及相关设备

文本处理方法文本处理装置注意力词特征语义

一种基于城市多模态大模型的视频事件分析方法及系统

站点导航

APP 下载