摘要
本公开提供了大语言模型的训练方法、推理方法、装置、设备及存储介质,涉及数据处理领域,尤其涉及人工智能、大数据等技术领域。具体实现方案为:基于目标样本集合中的至少部分样本数据,对预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块之一进行预训练,以分阶段得到预训练完成的预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块;在继承预训练完成的预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块的训练结果的情况下,基于所述目标样本集合,对预设多专家‑大语言模型进行参数微调,以得到目标多专家‑大语言模型;所述目标多专家‑大语言模型至少包括:目标视觉投影模块,具有视觉语言专家能力和分割专家能力的目标混合专家模块。
技术关键词
投影模块
大语言模型
样本
视觉
前馈神经网络
文本
图像分割
参数
注意力
投影特征
解码模块
编码模块
像素
数据
编码特征
推理方法
分阶段