一种可用于异构集群的大模型自适应并行训练方法

AITNT
正文
推荐专利
一种可用于异构集群的大模型自适应并行训练方法
申请号:CN202510021206
申请日期:2025-01-07
公开号:CN119938327B
公开日期:2025-07-22
类型:发明专利
摘要
本发明公开了一种可用于异构集群的大模型自适应并行训练方法,涉及并行计算技术领域,本技术方案解决了资源利用不均和效率低下的问题;通过动态计算数据并行值和张量并行配置,自动调整模型层与硬件的分配,优化设备间性能匹配和协同工作,提高资源利用率并消除性能瓶颈;同时,该方法通过实时监测和动态调整存储需求匹配指数Cpp和处理时长Csc,最优化利用每个设备的显存和计算能力,解决显存空间限制问题;此外,本方案还包括持续监测实时性能数据并动态调整流水线并行中的参数,如数据传输速度和计算任务重新分配,提高了训练的灵活性和效率,确保并行训练配置始终适应当前集群的实际运行状况。
技术关键词
并行训练方法 异构 集群 流水线 网络带宽测试 硬件设备 网络测试工具 优化设备 数据管理效率 并行计算技术 自动化算法 动态 指数 并行技术 瓶颈 通信带宽 参数 硬件平台
系统为您推荐了相关专利信息
1
一种基于异构边缘框架的多级资源动态调度方法
资源动态调度方法 异构计算模块 智能调度算法 框架 数字信号处理
2
一种异构飞行器时空协同轨迹规划方法
时间可调 预示方法 无动力 轨迹规划方法 滑翔飞行器
3
数据对比方法、装置、设备及存储介质
数值 字段 哈希算法 MD5算法 集群
4
异构网络接入方法及系统、边缘计算装置
接入终端 网络接入方法 单兵终端 北向接口模块 接入设备
5
一种用于复杂动态环境的无人机集群目标搜索方法、装置、设备及存储介质
无人机集群 搜索方法 无人机传感器 随机森林模型 设计无人机
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号