一种高分辨率多模态大模型架构的实现方法

正文

推荐专利

一种高分辨率多模态大模型架构的实现方法

申请号：CN202411724468

申请日期：2024-11-28

公开号：CN119887520A

公开日期：2025-04-25

类型：发明专利

摘要

一种高分辨率多模态大模型架构的实现方法，实现一种多模态大模型架构，配置用于已有的多模态大模型，用于处理包含高分辨率图像的输入，所述多模态大模型架构对视觉特征提取部分引入局部随机采样机制，并采用分层注入机制将多次随机采样的结果分层注入LLM中。本发明将多次局部随机采样得到的视觉特征划分到LLM的不同层注入，显著减少了LLM在每一层中需要处理的视觉特征，在保证MLLM模型性能前提下，节省了模型训练和推理时的时间开销和显存开销，本发明的局部随机采样机制去除了大量的冗余视觉特征，提高了LLM模型的性能，解决了模型输入高分辨率图像时导致性能下降的问题。

技术关键词

多模态视觉特征提取文本分层动态网格机制采样率图像缩放序列编码超参数冗余场景

系统为您推荐了相关专利信息

一种针对动力学指令丢包的无人机复合非高斯姿态估计方法

姿态估计方法偏振传感器分层概率模型惯性器件误差定姿系统

一种基于大语言模型知识融合的多选式问答方法

大语言模型预训练语言模型问答方法文本编码器生成方法

基于大模型的OCR识别方法、系统以及存储介质

局部图像特征图像特征信息 OCR识别方法图像编码器指令

基于大语言模型和可满足性问题求解器的软件需求缺陷检测方法

大语言模型缺陷检测方法文本术语实体

基于人工智能的地理学习增强方法

生成对抗网络模型学生动态反馈机制深度学习训练地理实体

一种高分辨率多模态大模型架构的实现方法

站点导航

APP 下载