摘要
本发明涉及无人机视频数据解译技术领域,特别涉及一种基于多模态大模型的无人机视频摘要语义描述方法及系统,获取无人机视频数据的若干分段视频帧图像;利用多模态大模型提取图像特征,所述多模态大模型采用视觉语言基础模型中的图像编码器对输入的分段视频帧图像进行编码并提取对应的图像特征;对图像特征进行自适应聚类,得到每个分段视频的聚类中心,以聚类中心所在帧位置作为视频摘要所在帧位置,生成无人机视频摘要;利用语义描述模型获取无人机视频摘要的场景语义描述,所述语义描述模型为利用无人机图像语义描述数据集对大模型进行微调后得到的。本发明可准确高效地从无人机视频数据中提取核心情报信息,提升无人机视频数据利用效率。
技术关键词
视频帧
视频场景分割
语义
摘要
多模态
分段
生成无人机
图像特征点
图像编码器
数据
邻域
图像处理方法
特征提取模块
聚类
解译技术
镜头边界
系统为您推荐了相关专利信息
国土空间规划
智能集成系统
多源异构数据
深度学习模型
特征值
数据推送系统
语音意图识别
多媒体
语音识别模块
转移概率矩阵