一种基于场景解译图的中高点位图像场景理解方法和系统

正文

推荐专利

申请号：CN202510811655

申请日期：2025-06-18

公开号：CN120340031B

公开日期：2025-11-18

类型：发明专利

摘要

本发明涉及图文数据处理技术领域，具体公开了一种基于场景解译图的中高点位图像场景理解方法和系统，其中方法包括以下步骤：向开集目标检测模型中输入文本提示词和场景图像，获取检测场景理解需要用到的目标检测框及目标标签；输入目标检测框和场景图像至分割模型，获取目标检测框的掩码；通过标签和掩码，计算目标的相对位置和大小关系，获得场景解译图；通过大语言模型对所述场景解译图分析，输出对于图像场景理解的文本结果。该方法提高了对场景理解的泛化能力，节省了数据训练成本，提高了描述精准性和详细性，提高了理解结果的可解释性。

技术关键词

图像场景理解大语言模型边界轮廓文本关系图文数据处理技术物体标签像素输出模块系列

系统为您推荐了相关专利信息

执行数据分析任务的方法、装置、存储介质及电子设备

大语言模型重构数据指令电子设备

一种蛇毒中毒智能诊断方法、装置、设备及介质

多任务分类智能诊断方法语义特征融合特征蛇毒

数据合并方法、装置、存储控制芯片及存储介质

数据合并方法数据合并装置存储控制芯片序列索引算法

一种基于磁链非线性建模的开关磁阻电机无传感器控制方法

无传感器控制方法开关磁阻电机径向基函数神经网络建模误差非线性映射关系

一种基于多模态多任务学习的机器人分类检测方法及系统

分类检测方法语义注意力多模态机器人多任务

一种基于场景解译图的中高点位图像场景理解方法和系统

站点导航

APP 下载