摘要
一种高分辨率多模态大模型架构的实现方法,实现一种多模态大模型架构,配置用于已有的多模态大模型,用于处理包含高分辨率图像的输入,所述多模态大模型架构对视觉特征提取部分引入局部随机采样机制,并采用分层注入机制将多次随机采样的结果分层注入LLM中。本发明将多次局部随机采样得到的视觉特征划分到LLM的不同层注入,显著减少了LLM在每一层中需要处理的视觉特征,在保证MLLM模型性能前提下,节省了模型训练和推理时的时间开销和显存开销,本发明的局部随机采样机制去除了大量的冗余视觉特征,提高了LLM模型的性能,解决了模型输入高分辨率图像时导致性能下降的问题。
技术关键词
多模态
视觉特征提取
文本
分层
动态网格
机制
采样率
图像缩放
序列
编码
超参数
冗余
场景
系统为您推荐了相关专利信息
姿态估计方法
偏振传感器
分层概率模型
惯性器件误差
定姿系统
大语言模型
预训练语言模型
问答方法
文本编码器
生成方法
局部图像特征
图像特征信息
OCR识别方法
图像编码器
指令
生成对抗网络模型
学生
动态反馈机制
深度学习训练
地理实体