摘要
一种基于视觉提示的视觉语言大模型感知增强方法及系统,涉及视觉语言大模型领域。解决了现有的如何能够在资源受限条件下部署的小规模大语言模型成为亟待要解决的问题。所述方法包括:采用分割组件对原始图像进行分割,生成掩码和物体的分割列表;使用视觉编码器来分别处理原始图像和语义分割器产生的图像掩码,用于提取突出物体位置和边界的多层次视觉特征;并进行层归一化和MLP层处理,形成视觉特征;将所生成掩码和物体的分割结果列表作为文本指令、提取的突出物体位置和边界的多层次视觉特征以及视觉特征输入到视觉语言大模型中进行自回归语义生成,还适用于在不增加额外训练参数时提升视觉语言大模型对物体的感知与问答能力技术领域中。
技术关键词
视觉特征
分割器
物体
多层次
大语言模型
列表
语义
图像
构建算法
文本
阶段
输入模块
可读存储介质
处理器
存储器
指令
跨模态
计算机设备
参数
系统为您推荐了相关专利信息
学习优化方法
多任务
多尺度神经网络
局部纹理特征
轻量化结构
静态代码分析
大语言模型
信息模块
变量
输出模块
摄像模块
全景摄像头
识别模块
拍摄全景视频
识别算法
三维网格模型
结构光视觉传感器
语义特征
图谱
三维模型集
图像拼接
物体识别模型
方位角
拼接缝
图像处理器