摘要
本申请公开了在大模型训练场景下的NUMA调度方法、装置、设备及介质,涉及人工智能技术领域,包括:采集目标集群拓扑关系配置文件;获取与当前大模型训练任务的图形处理器需求对应的目标亲和性策略,如为第一亲和性策略,基于拓扑关系配置文件从各处理器节点中筛选出包括候选NUMA节点的候选处理器节点,候选NUMA节点为单个NUMA节点下图形处理器的空闲数量满足图形处理器需求的NUMA节点,根据各候选NUMA节点的性能通信评分从各候选NUMA节点中确定目标NUMA节点;在训练容器启动时,调度目标NUMA节点下的各图形处理器完成当前大模型训练任务。使得大模型训练的效率提升、成本降低。
技术关键词
图形处理器
节点
训练场景
策略
关系
容器
集群
序列
存储计算机程序
人工智能技术
调度装置
模块
可读存储介质
列表
连续性
键值
电子设备
存储器
系统为您推荐了相关专利信息
环境监测方法
博物馆
调控策略
功率器件
卷积神经网络技术
实训车间
实训平台
策略优化模型
任务分配信息
职业
负荷
电力分配
智能控制系统
卷积神经网络模型
曲线
多元线性回归模型
分析方法
周期
标记
同位素分析