大语言模型的训练方法、推理方法、装置、设备及存储介质

AITNT
正文
推荐专利
大语言模型的训练方法、推理方法、装置、设备及存储介质
申请号:CN202410805230
申请日期:2024-06-20
公开号:CN118673325A
公开日期:2024-09-20
类型:发明专利
摘要
本公开提供了大语言模型的训练方法、推理方法、装置、设备及存储介质,涉及数据处理领域,尤其涉及人工智能、大数据等技术领域。具体实现方案为:基于目标样本集合中的至少部分样本数据,对预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块之一进行预训练,以分阶段得到预训练完成的预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块;在继承预训练完成的预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块的训练结果的情况下,基于所述目标样本集合,对预设多专家‑大语言模型进行参数微调,以得到目标多专家‑大语言模型;所述目标多专家‑大语言模型至少包括:目标视觉投影模块,具有视觉语言专家能力和分割专家能力的目标混合专家模块。
技术关键词
投影模块 大语言模型 样本 视觉 前馈神经网络 文本 图像分割 参数 注意力 投影特征 解码模块 编码模块 像素 数据 编码特征 推理方法 分阶段
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号