摘要
本发明涉及图文数据处理技术领域,具体公开了一种基于场景解译图的中高点位图像场景理解方法和系统,其中方法包括以下步骤:向开集目标检测模型中输入文本提示词和场景图像,获取检测场景理解需要用到的目标检测框及目标标签;输入目标检测框和场景图像至分割模型,获取目标检测框的掩码;通过标签和掩码,计算目标的相对位置和大小关系,获得场景解译图;通过大语言模型对所述场景解译图分析,输出对于图像场景理解的文本结果。该方法提高了对场景理解的泛化能力,节省了数据训练成本,提高了描述精准性和详细性,提高了理解结果的可解释性。
技术关键词
图像场景理解
大语言模型
边界轮廓
文本
关系
图文数据处理技术
物体
标签
像素
输出模块
系列
系统为您推荐了相关专利信息
多任务分类
智能诊断方法
语义特征
融合特征
蛇毒
数据合并方法
数据合并装置
存储控制芯片
序列
索引算法
无传感器控制方法
开关磁阻电机
径向基函数神经网络
建模误差
非线性映射关系