通过嵌入式视觉压缩实现的紧凑多模态大模型

AITNT
正文
推荐专利
通过嵌入式视觉压缩实现的紧凑多模态大模型
申请号:CN202510176202
申请日期:2025-02-18
公开号:CN120181220A
公开日期:2025-06-20
类型:发明专利
摘要
本发明公开一种通过嵌入式视觉压缩实现的紧凑多模态大模型,旨在通过嵌入式视觉压缩策略,减少模型在高分辨率输入下的计算开销,同时保持图像细节的充分表达。紧凑多模态大模型包括:通过视觉编码器提取其视觉特征;通过分词器得到文本特征;由空间注意力池化模块将视觉特征处理为紧凑型视觉特征;投影器对紧凑型视觉特征、文本特征进行线性投影后,将两者一起输入到多模态大模型中,并在序列末尾填充个可学习的查询特征;紧凑型视觉特征、文本特征和查询特征在多模态大模型的第层之前参与多模态交互,在第层通过嵌入式查询模块捕获与指令相关的图像信息,以补充在注意力池化过程中丢失的图像细节。
技术关键词
视觉特征 嵌入式视觉 查询特征 紧凑型 文本 多模态交互 图像 交叉注意力机制 序列 多层感知机 模块 答案 矩阵 指令 非线性 定义
系统为您推荐了相关专利信息
1
中标概率的确定方法、装置及电子设备
时间序列特征 项目 非易失性存储介质 文本 对象
2
知识图谱与时空图网络融合驱动的风电机组状态监测方法
网络融合驱动 风电机组 运维知识图谱 节点特征 数据
3
一种复杂数据集下基于扩散模型和双注意力抑制的蛋白质亚细胞定位方法
蛋白质亚细胞定位方法 注意力 特征提取网络 特征提取模块 通道
4
一种座舱氛围主题生成方法、装置、设备、介质及产品
座舱 场景特征 主题生成方法 自然语言 场景图像处理
5
异常检测方法、装置、电子设备及存储介质
异常检测方法 参数 决策树模型 异常监控系统 异常检测装置
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号