摘要
本发明公开一种通过嵌入式视觉压缩实现的紧凑多模态大模型,旨在通过嵌入式视觉压缩策略,减少模型在高分辨率输入下的计算开销,同时保持图像细节的充分表达。紧凑多模态大模型包括:通过视觉编码器提取其视觉特征;通过分词器得到文本特征;由空间注意力池化模块将视觉特征处理为紧凑型视觉特征;投影器对紧凑型视觉特征、文本特征进行线性投影后,将两者一起输入到多模态大模型中,并在序列末尾填充个可学习的查询特征;紧凑型视觉特征、文本特征和查询特征在多模态大模型的第层之前参与多模态交互,在第层通过嵌入式查询模块捕获与指令相关的图像信息,以补充在注意力池化过程中丢失的图像细节。
技术关键词
视觉特征
嵌入式视觉
查询特征
紧凑型
文本
多模态交互
图像
交叉注意力机制
序列
多层感知机
模块
答案
矩阵
指令
非线性
定义
系统为您推荐了相关专利信息
网络融合驱动
风电机组
运维知识图谱
节点特征
数据
蛋白质亚细胞定位方法
注意力
特征提取网络
特征提取模块
通道
座舱
场景特征
主题生成方法
自然语言
场景图像处理
异常检测方法
参数
决策树模型
异常监控系统
异常检测装置