基于多模态大模型的无人机视频摘要语义描述方法及系统

AITNT
正文
推荐专利
基于多模态大模型的无人机视频摘要语义描述方法及系统
申请号:CN202510463016
申请日期:2025-04-14
公开号:CN120411571A
公开日期:2025-08-01
类型:发明专利
摘要
本发明涉及无人机视频数据解译技术领域,特别涉及一种基于多模态大模型的无人机视频摘要语义描述方法及系统,获取无人机视频数据的若干分段视频帧图像;利用多模态大模型提取图像特征,所述多模态大模型采用视觉语言基础模型中的图像编码器对输入的分段视频帧图像进行编码并提取对应的图像特征;对图像特征进行自适应聚类,得到每个分段视频的聚类中心,以聚类中心所在帧位置作为视频摘要所在帧位置,生成无人机视频摘要;利用语义描述模型获取无人机视频摘要的场景语义描述,所述语义描述模型为利用无人机图像语义描述数据集对大模型进行微调后得到的。本发明可准确高效地从无人机视频数据中提取核心情报信息,提升无人机视频数据利用效率。
技术关键词
视频帧 视频场景分割 语义 摘要 多模态 分段 生成无人机 图像特征点 图像编码器 数据 邻域 图像处理方法 特征提取模块 聚类 解译技术 镜头边界
系统为您推荐了相关专利信息
1
一种邮件附件的译文预览方法及装置
层级 附件 摘要 数据 界面
2
基于语义分析的国土空间规划多源异构数据智能集成系统
国土空间规划 智能集成系统 多源异构数据 深度学习模型 特征值
3
一种低代码企业级智能助手开发平台
企业级 平台 历史会话管理 多模态 工作流引擎
4
基于二进制算术编码的三维几何模型序列压缩方法、装置、设备及存储介质
二进制算术编码 面片 预测残差 顶点 序列
5
一种基于多媒体互动的电网数据推送系统、方法、设备及介质
数据推送系统 语音意图识别 多媒体 语音识别模块 转移概率矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号