摘要
本发明公开了一种多模态大型语言模型训练方法、电子设备及存储介质,包括S1、构建包含图文对数据、文档数据、图表数据、表格数据和自然图像数据的综合数据集;S2、利用图文对数据对图文对齐模型进行预训练,得到预训练图文对齐模型;S3、将预训练图文对齐模型的部分参数作为初始参数,结合综合数据集对大型语言模型进行联合训练,本发明的有益效果:本发明采用将预训练图文对齐模型的部分参数作为初始参数,结合综合数据集对大型语言模型进行联合训练的方式,通过联合训练,使模型在训练过程中能够更紧密地融合不同模态信息,充分利用图文对齐模型前期训练中对图文关系的理解,显著提升了模型对多模态数据的整体处理能力。
技术关键词
语言模型训练方法
图文
多模态注意力
数据
分层注意力
语义
图表
参数
图片
段落结构
电子设备
存储计算机程序
表格
设计专用
视觉特征
机制
处理器
跨模态
多任务