基于多模态大模型驱动的SAR图像描述方法、装置及设备

正文

推荐专利

申请号：CN202510932322

申请日期：2025-07-07

公开号：CN120808110A

公开日期：2025-10-17

类型：发明专利

摘要

本申请涉及一种基于多模态大模型驱动的SAR图像描述方法、装置及设备，通过根据目标在所处场景中的多层关系，构建关于目标‑关系‑场景三层协同的分层式标注策略，构建包括描述提示指令、类别提示指令以及限制词提示指令的结构性提示词，将SAR图像与结构性提示词输入至多模态大模型中，该模型根据结构性提示词生成分层式标注策略中各层级对应的层级语义描述，将各层级语义描述进行重构融合得到初步语义描述，对初步语义描述进行质量分析，并根据质量分析结果对结构性提示词进行优化，并对初步语义描述按照语义描述标准进行修正得到语义描述。采用本方法可针对图像结构复杂、标注模式受限以及数据规模不足的问题，实现SAR图像的语义描述标注。

技术关键词

标注策略语义多模态图像层级场景分层指令 ResNet网络关系解码器编码器标签重构计算机设备模块存储器数据处理器受限

系统为您推荐了相关专利信息

一种基于视觉检测的焊缝识别方法

焊缝识别方法视觉特种作业考试硬件资源利用率网络优化策略

基于深度学习的视频语义检索方法、装置、设备和介质

视频语义检索文本视频帧离散特征计算机程序产品

一种隧道围岩检测分析方法与系统

检测分析方法支持向量回归模型应变感测光缆变量线束

语音合成方法、装置、电子设备及存储介质

文本双模态样本序列语音标签

基于多维度数据融合的年龄判断方法、系统、介质及设备

年龄判断方法面部数据采集模块判断系统身份证信息采集

基于多模态大模型驱动的SAR图像描述方法、装置及设备

站点导航

APP 下载