一种基于视觉提示的视觉语言大模型感知增强方法及系统

正文

推荐专利

申请号：CN202510648607

申请日期：2025-05-20

公开号：CN120472173A

公开日期：2025-08-12

类型：发明专利

摘要

一种基于视觉提示的视觉语言大模型感知增强方法及系统，涉及视觉语言大模型领域。解决了现有的如何能够在资源受限条件下部署的小规模大语言模型成为亟待要解决的问题。所述方法包括：采用分割组件对原始图像进行分割，生成掩码和物体的分割列表；使用视觉编码器来分别处理原始图像和语义分割器产生的图像掩码，用于提取突出物体位置和边界的多层次视觉特征；并进行层归一化和MLP层处理，形成视觉特征；将所生成掩码和物体的分割结果列表作为文本指令、提取的突出物体位置和边界的多层次视觉特征以及视觉特征输入到视觉语言大模型中进行自回归语义生成，还适用于在不增加额外训练参数时提升视觉语言大模型对物体的感知与问答能力技术领域中。

技术关键词

视觉特征分割器物体多层次大语言模型列表语义图像构建算法文本阶段输入模块可读存储介质处理器存储器指令跨模态计算机设备参数

系统为您推荐了相关专利信息

一种自动驾驶场景下的多任务学习优化方法及系统

学习优化方法多任务多尺度神经网络局部纹理特征轻量化结构

利用大型语言模型进行静态代码分析的系统和方法

静态代码分析大语言模型信息模块变量输出模块

一种全景摄像头图像处理系统及方法

摄像模块全景摄像头识别模块拍摄全景视频识别算法

一种基于物资称重影像画面的自动抓拍获取方法

三维网格模型结构光视觉传感器语义特征图谱三维模型集

一种拼接图像拼接缝的调整方法

图像拼接物体识别模型方位角拼接缝图像处理器

一种基于视觉提示的视觉语言大模型感知增强方法及系统

站点导航

APP 下载