摘要
本发明公开了一种视觉与语言融合的多模态大模型系统,包括:融合了DINOv2和SigLIP的视觉编码器,用来收集低层次的空间属性以及语义属性;多层感知机投影器,用来将视觉特征映射到语言嵌入空间以及基于状态空间模型的Mamba骨干模型网络。相较于依靠Transformer网络作为基础模型的多模态大语言模型,本发明的大模型系统在推理速度,准确率等指标均有提升。
技术关键词
多层感知机
文本编码器
投影器
图像缩放
状态空间模型
编码器模块
序列
大语言模型
视觉特征
图像分割
语义
格式
分辨率
网络
级联
通道
系统为您推荐了相关专利信息
病例推荐方法
文本特征向量
图像特征向量
患者
全卷积神经网络
语义标签
信息补全方法
文本
预训练语言模型
语义角色标注
事件触发控制方法
输出反馈控制器
动态控制器
表达式
状态空间模型