一种视觉与语言融合的多模态大模型系统

正文

推荐专利

一种视觉与语言融合的多模态大模型系统

申请号：CN202411736605

申请日期：2024-11-29

公开号：CN119227744B

公开日期：2025-07-04

类型：发明专利

摘要

本发明公开了一种视觉与语言融合的多模态大模型系统，包括：融合了DINOv2和SigLIP的视觉编码器，用来收集低层次的空间属性以及语义属性；多层感知机投影器，用来将视觉特征映射到语言嵌入空间以及基于状态空间模型的Mamba骨干模型网络。相较于依靠Transformer网络作为基础模型的多模态大语言模型，本发明的大模型系统在推理速度，准确率等指标均有提升。

技术关键词

多层感知机文本编码器投影器图像缩放状态空间模型编码器模块序列大语言模型视觉特征图像分割语义格式分辨率网络级联通道

系统为您推荐了相关专利信息

一种融合空间感知与时频转换的飞行轨迹预测方法

飞行轨迹预测多层感知机模块学习器序列

一种基于曼巴模型的病例推荐方法以及系统

病例推荐方法文本特征向量图像特征向量患者全卷积神经网络

一种文本信息补全方法和系统

语义标签信息补全方法文本预训练语言模型语义角色标注

一种基于Mamba和Unet模型的红外光谱预处理方法

光谱预处理方法输出特征分支基线长光程气体

一种在随机通信协议下的动态事件触发控制方法

事件触发控制方法输出反馈控制器动态控制器表达式状态空间模型

一种视觉与语言融合的多模态大模型系统

站点导航

APP 下载