摘要
本发明提供一种基于算力服务调度的AI模型训练加速方法及系统,涉及算力服务技术领域,首先采集AI模型历史训练过程数据和当前训练任务模型结构特征,构建算力需求预测模型,输入当前任务模型结构特征生成算力资源需求分布序列,涵盖训练各阶段对计算核心数量、内存带宽及数据传输速率的需求变化曲线,接着依据该序列从算力服务集群筛选匹配的算力资源组合方案,调度计算节点执行训练任务,并实时采集实际算力资源消耗数据,最后将实际数据与预测序列比对,生成偏差值并动态调整计算节点启用数量,从而实现了算力需求的精准预测和动态优化调度,提高了算力资源利用率,加速了AI模型训练。
技术关键词
需求预测模型
服务集群
深度学习网络
阶段
节点
内存占用量
序列
核心
数据
分布特征
资源预留请求
偏差
生成资源
参数
长短期记忆网络
网络接口
双向长短期记忆
系统为您推荐了相关专利信息
隐私保护方法
立方体
Kruskal算法
矩阵
拓扑结构信息
联邦学习方法
客户端
压缩感知算法
节点
隐私保护能力