一种基于分层视觉注入与混合注意力机制的多模态大模型方法

AITNT
正文
推荐专利
一种基于分层视觉注入与混合注意力机制的多模态大模型方法
申请号:CN202510124361
申请日期:2025-01-26
公开号:CN120047785A
公开日期:2025-05-27
类型:发明专利
摘要
本发明提出的是一种基于分层视觉注入与混合注意力机制的多模态大模型方法。该方法首先通过预训练的视觉编码器提取输入图像的视觉特征序列,并将其投影到与大语言模型嵌入空间相同的维度。随后,在每一层中,利用混合注意力机制将视觉特征与文本特征进行高效融合,生成综合的键值序列,从而实现视觉与文本信息的协同处理。与现有多模态大模型相比,本发明有效解决了因序列长度增加而导致计算复杂度显著上升的问题。通过分层视觉注入与混合注意力机制,本方法在保持模型性能的同时,显著降低了整体计算成本,提升了多模态大模型计算效率。
技术关键词
注意力机制 视觉特征 分层 键值 优化网络参数 序列 文本编码器 矩阵 多模态 复杂度 图像 数据
系统为您推荐了相关专利信息
1
造价评估模型生成方法和装置以及造价评估方法和装置
评估模型生成方法 政务 特异 预训练方法 造价评估方法
2
一种火电厂SCR脱硝系统出口NOx浓度预测方法及系统
NOx浓度预测方法 SCR脱硝系统 LSTM模型 超参数 历史运行数据
3
基于WOA优化VMD和双重注意力机制-时变集成模型的线路动态载流量预测方法
流量预测方法 注意力机制 重构误差 动态 线路
4
一种基于差速分离的电力金具自动分拣系统及方法
电力金具 输送带组件 分拣系统 分拣执行机构 识别装置
5
基于细胞-基因异质二分图的单细胞数据表达谱重建方法及相关设备
基因 节点 矩阵分解模型 异质 编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号