摘要
本申请涉及人工智能技术领域,尤其涉及一种深度学习模型训练方法、装置、设备及存储介质。该方法根据初始大语言模型、预设超参数和显存来确定合适的梯度压缩策略,减少训练过程中梯度数据占用的显存空间,使得训练能够在硬件资源有限的情况下高效进行,确保了在训练全过程中资源的高效分配和利用;在迭代训练过程中,采用预设的调整策略逐步优化模型,使之更好地适应训练数据,减少不必要的迭代次数,从而缩短训练时间,降低能耗和计算成本;基于压缩策略和预设数据训练得到的目标大语言模型参数更新初始大语言模型,实现了模型的迭代进化,提高了模型对数据的适应度,在保证模型性能的同时,降低了训练成本。
技术关键词
大语言模型
深度学习模型训练
矩阵
策略
神经网络模型
超参数
数据
人工智能技术
训练集
因子
元素
程序
处理器
计算机设备
存储器
模块
能耗
资源
系统为您推荐了相关专利信息
支持向量机模型
随机森林模型
代码特征
策略
样本
监测分析方法
排放智能
节点
数字孪生
大数据聚类分析
家电智能识别
解析单元
Adaboost模型
多协议
子模块