一种基于分层视觉注入与混合注意力机制的多模态大模型方法

正文

推荐专利

申请号：CN202510124361

申请日期：2025-01-26

公开号：CN120047785A

公开日期：2025-05-27

类型：发明专利

摘要

本发明提出的是一种基于分层视觉注入与混合注意力机制的多模态大模型方法。该方法首先通过预训练的视觉编码器提取输入图像的视觉特征序列，并将其投影到与大语言模型嵌入空间相同的维度。随后，在每一层中，利用混合注意力机制将视觉特征与文本特征进行高效融合，生成综合的键值序列，从而实现视觉与文本信息的协同处理。与现有多模态大模型相比，本发明有效解决了因序列长度增加而导致计算复杂度显著上升的问题。通过分层视觉注入与混合注意力机制，本方法在保持模型性能的同时，显著降低了整体计算成本，提升了多模态大模型计算效率。

技术关键词

注意力机制视觉特征分层键值优化网络参数序列文本编码器矩阵多模态复杂度图像数据

系统为您推荐了相关专利信息

造价评估模型生成方法和装置以及造价评估方法和装置

评估模型生成方法政务特异预训练方法造价评估方法

一种火电厂SCR脱硝系统出口NOx浓度预测方法及系统

NOx浓度预测方法 SCR脱硝系统 LSTM模型超参数历史运行数据

基于WOA优化VMD和双重注意力机制-时变集成模型的线路动态载流量预测方法

流量预测方法注意力机制重构误差动态线路

一种基于差速分离的电力金具自动分拣系统及方法

电力金具输送带组件分拣系统分拣执行机构识别装置

基于细胞-基因异质二分图的单细胞数据表达谱重建方法及相关设备

基因节点矩阵分解模型异质编码器

一种基于分层视觉注入与混合注意力机制的多模态大模型方法

站点导航

APP 下载