一种深度学习模型训练方法、装置、设备及存储介质

AITNT
正文
推荐专利
一种深度学习模型训练方法、装置、设备及存储介质
申请号:CN202411060726
申请日期:2024-08-05
公开号:CN118627600B
公开日期:2024-11-26
类型:发明专利
摘要
本申请涉及人工智能技术领域,尤其涉及一种深度学习模型训练方法、装置、设备及存储介质。该方法根据初始大语言模型、预设超参数和显存来确定合适的梯度压缩策略,减少训练过程中梯度数据占用的显存空间,使得训练能够在硬件资源有限的情况下高效进行,确保了在训练全过程中资源的高效分配和利用;在迭代训练过程中,采用预设的调整策略逐步优化模型,使之更好地适应训练数据,减少不必要的迭代次数,从而缩短训练时间,降低能耗和计算成本;基于压缩策略和预设数据训练得到的目标大语言模型参数更新初始大语言模型,实现了模型的迭代进化,提高了模型对数据的适应度,在保证模型性能的同时,降低了训练成本。
技术关键词
大语言模型 深度学习模型训练 矩阵 策略 神经网络模型 超参数 数据 人工智能技术 训练集 因子 元素 程序 处理器 计算机设备 存储器 模块 能耗 资源
系统为您推荐了相关专利信息
1
代码修改策略确定方法、装置、设备、介质和程序产品
支持向量机模型 随机森林模型 代码特征 策略 样本
2
一种适用于脑成像数据联合分析的快速耦合张量分解算法
分解算法 因子 矩阵 脑成像数据 构建代价函数
3
一种用于工地的智能安全监管方法及系统
安全监管方法 神经网络模型 监控设备 曲线 工地
4
一种架空输电线路碳排放智能监测分析方法
监测分析方法 排放智能 节点 数字孪生 大数据聚类分析
5
一种基于多协议融合的无线家电智能识别与解析方法及系统
家电智能识别 解析单元 Adaboost模型 多协议 子模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号