一种基于视觉提示的视觉语言大模型感知增强方法及系统

AITNT
正文
推荐专利
一种基于视觉提示的视觉语言大模型感知增强方法及系统
申请号:CN202510648607
申请日期:2025-05-20
公开号:CN120472173A
公开日期:2025-08-12
类型:发明专利
摘要
一种基于视觉提示的视觉语言大模型感知增强方法及系统,涉及视觉语言大模型领域。解决了现有的如何能够在资源受限条件下部署的小规模大语言模型成为亟待要解决的问题。所述方法包括:采用分割组件对原始图像进行分割,生成掩码和物体的分割列表;使用视觉编码器来分别处理原始图像和语义分割器产生的图像掩码,用于提取突出物体位置和边界的多层次视觉特征;并进行层归一化和MLP层处理,形成视觉特征;将所生成掩码和物体的分割结果列表作为文本指令、提取的突出物体位置和边界的多层次视觉特征以及视觉特征输入到视觉语言大模型中进行自回归语义生成,还适用于在不增加额外训练参数时提升视觉语言大模型对物体的感知与问答能力技术领域中。
技术关键词
视觉特征 分割器 物体 多层次 大语言模型 列表 语义 图像 构建算法 文本 阶段 输入模块 可读存储介质 处理器 存储器 指令 跨模态 计算机设备 参数
系统为您推荐了相关专利信息
1
一种自动驾驶场景下的多任务学习优化方法及系统
学习优化方法 多任务 多尺度神经网络 局部纹理特征 轻量化结构
2
利用大型语言模型进行静态代码分析的系统和方法
静态代码分析 大语言模型 信息模块 变量 输出模块
3
一种全景摄像头图像处理系统及方法
摄像模块 全景摄像头 识别模块 拍摄全景视频 识别算法
4
一种基于物资称重影像画面的自动抓拍获取方法
三维网格模型 结构光视觉传感器 语义特征 图谱 三维模型集
5
一种拼接图像拼接缝的调整方法
图像拼接 物体识别模型 方位角 拼接缝 图像处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号