通过嵌入式视觉压缩实现的紧凑多模态大模型

正文

推荐专利

申请号：CN202510176202

申请日期：2025-02-18

公开号：CN120181220A

公开日期：2025-06-20

类型：发明专利

摘要

本发明公开一种通过嵌入式视觉压缩实现的紧凑多模态大模型，旨在通过嵌入式视觉压缩策略，减少模型在高分辨率输入下的计算开销，同时保持图像细节的充分表达。紧凑多模态大模型包括：通过视觉编码器提取其视觉特征；通过分词器得到文本特征；由空间注意力池化模块将视觉特征处理为紧凑型视觉特征；投影器对紧凑型视觉特征、文本特征进行线性投影后，将两者一起输入到多模态大模型中，并在序列末尾填充个可学习的查询特征；紧凑型视觉特征、文本特征和查询特征在多模态大模型的第层之前参与多模态交互，在第层通过嵌入式查询模块捕获与指令相关的图像信息，以补充在注意力池化过程中丢失的图像细节。

技术关键词

视觉特征嵌入式视觉查询特征紧凑型文本多模态交互图像交叉注意力机制序列多层感知机模块答案矩阵指令非线性定义

系统为您推荐了相关专利信息

中标概率的确定方法、装置及电子设备

时间序列特征项目非易失性存储介质文本对象

知识图谱与时空图网络融合驱动的风电机组状态监测方法

网络融合驱动风电机组运维知识图谱节点特征数据

一种复杂数据集下基于扩散模型和双注意力抑制的蛋白质亚细胞定位方法

蛋白质亚细胞定位方法注意力特征提取网络特征提取模块通道

一种座舱氛围主题生成方法、装置、设备、介质及产品

座舱场景特征主题生成方法自然语言场景图像处理

异常检测方法、装置、电子设备及存储介质

异常检测方法参数决策树模型异常监控系统异常检测装置

通过嵌入式视觉压缩实现的紧凑多模态大模型

站点导航

APP 下载