一种视觉与语言融合的多模态大模型系统

AITNT
正文
推荐专利
一种视觉与语言融合的多模态大模型系统
申请号:CN202411736605
申请日期:2024-11-29
公开号:CN119227744B
公开日期:2025-07-04
类型:发明专利
摘要
本发明公开了一种视觉与语言融合的多模态大模型系统,包括:融合了DINOv2和SigLIP的视觉编码器,用来收集低层次的空间属性以及语义属性;多层感知机投影器,用来将视觉特征映射到语言嵌入空间以及基于状态空间模型的Mamba骨干模型网络。相较于依靠Transformer网络作为基础模型的多模态大语言模型,本发明的大模型系统在推理速度,准确率等指标均有提升。
技术关键词
多层感知机 文本编码器 投影器 图像缩放 状态空间模型 编码器模块 序列 大语言模型 视觉特征 图像分割 语义 格式 分辨率 网络 级联 通道
系统为您推荐了相关专利信息
1
一种融合空间感知与时频转换的飞行轨迹预测方法
飞行轨迹预测 多层感知机 模块 学习器 序列
2
一种基于曼巴模型的病例推荐方法以及系统
病例推荐方法 文本特征向量 图像特征向量 患者 全卷积神经网络
3
一种文本信息补全方法和系统
语义标签 信息补全方法 文本 预训练语言模型 语义角色标注
4
一种基于Mamba和Unet模型的红外光谱预处理方法
光谱预处理方法 输出特征 分支 基线 长光程气体
5
一种在随机通信协议下的动态事件触发控制方法
事件触发控制方法 输出反馈控制器 动态控制器 表达式 状态空间模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号