基于多模态大模型的无人机视频摘要语义描述方法及系统

正文

推荐专利

申请号：CN202510463016

申请日期：2025-04-14

公开号：CN120411571A

公开日期：2025-08-01

类型：发明专利

摘要

本发明涉及无人机视频数据解译技术领域，特别涉及一种基于多模态大模型的无人机视频摘要语义描述方法及系统，获取无人机视频数据的若干分段视频帧图像；利用多模态大模型提取图像特征，所述多模态大模型采用视觉语言基础模型中的图像编码器对输入的分段视频帧图像进行编码并提取对应的图像特征；对图像特征进行自适应聚类，得到每个分段视频的聚类中心，以聚类中心所在帧位置作为视频摘要所在帧位置，生成无人机视频摘要；利用语义描述模型获取无人机视频摘要的场景语义描述，所述语义描述模型为利用无人机图像语义描述数据集对大模型进行微调后得到的。本发明可准确高效地从无人机视频数据中提取核心情报信息，提升无人机视频数据利用效率。

技术关键词

视频帧视频场景分割语义摘要多模态分段生成无人机图像特征点图像编码器数据邻域图像处理方法特征提取模块聚类解译技术镜头边界

系统为您推荐了相关专利信息

一种邮件附件的译文预览方法及装置

层级附件摘要数据界面

基于语义分析的国土空间规划多源异构数据智能集成系统

国土空间规划智能集成系统多源异构数据深度学习模型特征值

一种低代码企业级智能助手开发平台

企业级平台历史会话管理多模态工作流引擎

基于二进制算术编码的三维几何模型序列压缩方法、装置、设备及存储介质

二进制算术编码面片预测残差顶点序列

一种基于多媒体互动的电网数据推送系统、方法、设备及介质

数据推送系统语音意图识别多媒体语音识别模块转移概率矩阵

基于多模态大模型的无人机视频摘要语义描述方法及系统

站点导航

APP 下载