摘要
本申请涉及一种基于多模态大模型驱动的SAR图像描述方法、装置及设备,通过根据目标在所处场景中的多层关系,构建关于目标‑关系‑场景三层协同的分层式标注策略,构建包括描述提示指令、类别提示指令以及限制词提示指令的结构性提示词,将SAR图像与结构性提示词输入至多模态大模型中,该模型根据结构性提示词生成分层式标注策略中各层级对应的层级语义描述,将各层级语义描述进行重构融合得到初步语义描述,对初步语义描述进行质量分析,并根据质量分析结果对结构性提示词进行优化,并对初步语义描述按照语义描述标准进行修正得到语义描述。采用本方法可针对图像结构复杂、标注模式受限以及数据规模不足的问题,实现SAR图像的语义描述标注。
技术关键词
标注策略
语义
多模态
图像
层级
场景
分层
指令
ResNet网络
关系
解码器
编码器
标签
重构
计算机设备
模块
存储器
数据
处理器
受限
系统为您推荐了相关专利信息
焊缝识别方法
视觉
特种作业考试
硬件资源利用率
网络优化策略
视频语义检索
文本
视频帧
离散特征
计算机程序产品
检测分析方法
支持向量回归模型
应变感测光缆
变量
线束
年龄判断方法
面部
数据采集模块
判断系统
身份证信息采集