摘要
本申请公开了一种大模型数据分布式管理方法、装置、设备及存储介质,涉及数据处理技术领域,包括:对大模型训练数据进行分割得到若干数据块,基于长短期记忆网络模型和数据块的历史访问频率确定预测访问频率;利用预测访问频率将数据块对应的大模型训练数据缓存至对应的数据缓存层;利用GPU节点的静态属性和动态指标构建资源画像,基于预测访问频率和数据块在数据缓存层对应的存储位置并利用预设混部策略和资源画像,将大模型训练任务分配至目标GPU节点;当监测到目标GPU节点上的大模型训练任务执行时,利用分布式快照算法对大模型训练任务进行周期性快照,将得到的完整数据状态保存至分布式存储中心。以降低资源闲置率。
技术关键词
分布式管理方法
数据
长短期记忆网络
滑动窗口技术
快照
节点
频率
画像
遗传算法优化
分布式管理装置
策略
网络吞吐量
资源
历史访问记录
周期性
纠删码技术
时间段
指标
动态
系统为您推荐了相关专利信息
挖掘机模型
电子围墙
智能防碰撞
激光传感器
显示屏
轨迹
计算机执行指令
校验方法
计算机程序产品
地图
空间结构
交互方法
数学模型
关键特征点
节点更新