摘要
本发明提供了一种基于检索增强生成的文本指向性图像分割方法及系统,包括包括如下步骤:S1,根据用户输入的图像和查询自动生成优化检索词,实时从互联网获取相关的最新文本信息和最新图像信息;S2,将检索得到的最新文本信息融合生成丰富的文本提示,输入多模态大模型,提升多模态大模型对目标实体的语义理解能力;S3,利用检索得到的最新图像信息提取视觉原型特征,辅助多模态大模型识别新颖实体。首次系统性解决了多模态大语言模型分割中针对新兴实体的识别难题,突破了传统模型知识截止的限制,并在多种新兴实体分割任务中表现出卓越性能和鲁棒性,展现强大泛化能力和实际应用价值。
技术关键词
图像分割方法
多模态
文本
实体
互联网
图像分割系统
原型
答案
视觉
语义
大语言模型
鲁棒性
解码器
分块
模块