摘要
本发明提出的是一种基于分层视觉注入与混合注意力机制的多模态大模型方法。该方法首先通过预训练的视觉编码器提取输入图像的视觉特征序列,并将其投影到与大语言模型嵌入空间相同的维度。随后,在每一层中,利用混合注意力机制将视觉特征与文本特征进行高效融合,生成综合的键值序列,从而实现视觉与文本信息的协同处理。与现有多模态大模型相比,本发明有效解决了因序列长度增加而导致计算复杂度显著上升的问题。通过分层视觉注入与混合注意力机制,本方法在保持模型性能的同时,显著降低了整体计算成本,提升了多模态大模型计算效率。
技术关键词
注意力机制
视觉特征
分层
键值
优化网络参数
序列
文本编码器
矩阵
多模态
复杂度
图像
数据
系统为您推荐了相关专利信息
评估模型生成方法
政务
特异
预训练方法
造价评估方法
NOx浓度预测方法
SCR脱硝系统
LSTM模型
超参数
历史运行数据
电力金具
输送带组件
分拣系统
分拣执行机构
识别装置