一种高分辨率多模态大模型架构的实现方法

AITNT
正文
推荐专利
一种高分辨率多模态大模型架构的实现方法
申请号:CN202411724468
申请日期:2024-11-28
公开号:CN119887520A
公开日期:2025-04-25
类型:发明专利
摘要
一种高分辨率多模态大模型架构的实现方法,实现一种多模态大模型架构,配置用于已有的多模态大模型,用于处理包含高分辨率图像的输入,所述多模态大模型架构对视觉特征提取部分引入局部随机采样机制,并采用分层注入机制将多次随机采样的结果分层注入LLM中。本发明将多次局部随机采样得到的视觉特征划分到LLM的不同层注入,显著减少了LLM在每一层中需要处理的视觉特征,在保证MLLM模型性能前提下,节省了模型训练和推理时的时间开销和显存开销,本发明的局部随机采样机制去除了大量的冗余视觉特征,提高了LLM模型的性能,解决了模型输入高分辨率图像时导致性能下降的问题。
技术关键词
多模态 视觉特征提取 文本 分层 动态网格 机制 采样率 图像缩放 序列 编码 超参数 冗余 场景
系统为您推荐了相关专利信息
1
一种针对动力学指令丢包的无人机复合非高斯姿态估计方法
姿态估计方法 偏振传感器 分层概率模型 惯性器件误差 定姿系统
2
一种基于大语言模型知识融合的多选式问答方法
大语言模型 预训练语言模型 问答方法 文本编码器 生成方法
3
基于大模型的OCR识别方法、系统以及存储介质
局部图像特征 图像特征信息 OCR识别方法 图像编码器 指令
4
基于大语言模型和可满足性问题求解器的软件需求缺陷检测方法
大语言模型 缺陷检测方法 文本 术语 实体
5
基于人工智能的地理学习增强方法
生成对抗网络模型 学生 动态反馈机制 深度学习训练 地理实体
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号