一种深度学习模型训练方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202411060726

申请日期：2024-08-05

公开号：CN118627600B

公开日期：2024-11-26

类型：发明专利

摘要

本申请涉及人工智能技术领域，尤其涉及一种深度学习模型训练方法、装置、设备及存储介质。该方法根据初始大语言模型、预设超参数和显存来确定合适的梯度压缩策略，减少训练过程中梯度数据占用的显存空间，使得训练能够在硬件资源有限的情况下高效进行，确保了在训练全过程中资源的高效分配和利用；在迭代训练过程中，采用预设的调整策略逐步优化模型，使之更好地适应训练数据，减少不必要的迭代次数，从而缩短训练时间，降低能耗和计算成本；基于压缩策略和预设数据训练得到的目标大语言模型参数更新初始大语言模型，实现了模型的迭代进化，提高了模型对数据的适应度，在保证模型性能的同时，降低了训练成本。

技术关键词

大语言模型深度学习模型训练矩阵策略神经网络模型超参数数据人工智能技术训练集因子元素程序处理器计算机设备存储器模块能耗资源

系统为您推荐了相关专利信息

代码修改策略确定方法、装置、设备、介质和程序产品

支持向量机模型随机森林模型代码特征策略样本

一种适用于脑成像数据联合分析的快速耦合张量分解算法

分解算法因子矩阵脑成像数据构建代价函数

一种用于工地的智能安全监管方法及系统

安全监管方法神经网络模型监控设备曲线工地

一种架空输电线路碳排放智能监测分析方法

监测分析方法排放智能节点数字孪生大数据聚类分析

一种基于多协议融合的无线家电智能识别与解析方法及系统

家电智能识别解析单元 Adaboost模型多协议子模块

一种深度学习模型训练方法、装置、设备及存储介质

站点导航

APP 下载