一种基于城市多模态大模型的视频事件分析方法及系统

AITNT
正文
推荐专利
一种基于城市多模态大模型的视频事件分析方法及系统
申请号:CN202510760491
申请日期:2025-06-09
公开号:CN120747581A
公开日期:2025-10-03
类型:发明专利
摘要
本发明提供了一种基于城市多模态大模型的视频事件分析方法及系统,涉及智慧城市相关技术领域,包括以下:S1、获取待进行事件分析的原始输入视频和对应的指令文本;S2、依次提取原始输入视频中的每帧图像,根据帧图像之间的相似度对其进行筛选处理,得到多帧静态图像;S3、根据帧位置信息之间的连续性依次在对应的帧静态图像之间填充空白帧,并拼接形成视觉嵌入特征;S4、对指令文本进行处理得到指令文本嵌入特征;S5、将视觉嵌入特征和对应的指令文本嵌入特征进行统一位置编码,得到统一位置编码的嵌入特征;S6、将统一位置编码的嵌入特征输入到城市多模态大模型中的大语言模型中,得到事件分析结果的响应预测文本。
技术关键词
嵌入特征 事件分析方法 多模态 文本 视觉 指令 连续性 图像块 数据采集模块 编码模块 分析系统 监控设备 分析模块 视频帧 特征值 分词 画面
系统为您推荐了相关专利信息
1
一种基于动作快慢特征的多模态鸟类动作识别方法及装置
动作识别方法 视频特征向量 动作识别装置 语义 文本编码器
2
基于深度学习的遥感图文检索方法、系统、设备及介质
图文检索方法 文本 多尺度 跨模态 特征提取模块
3
基于通用命令的机器人控制方法、系统及电子设备
机器人控制方法 命令 机器人部件 文本 麦克风模块
4
基于无监督深度学习的多模态dMRI图像失真校正系统
图像失真校正 编码器 无监督深度学习 多层感知器 空间变换网络
5
一种文本处理方法、装置及相关设备
文本处理方法 文本处理装置 注意力 词特征 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号