摘要
本申请提供一种面向大规模深度学习的处理器系统及运行方法,属于处理器架构设计技术领域,所述系统包括主机、专家片上网络以及若干GPU加速卡;专家片上网络进行主机与各GPU加速卡之间的通信;GPU加速卡包括若干专家处理模块;CPU用于系统配置、任务部署及进程监控,响应深度学习模型处理请求,并发送至专家通信控制终端节点;专家通信控制终端节点根据深度学习模型的输入数据特征,将深度学习模型处理请求拆分为若干子任务,计算专家处理模块的匹配得分;调度子任务至目标专家处理模块,聚合计算专家处理模块处理结果;通过专家片上网络与GPU加速卡通信。本发明减轻CPU负担,提升任务分发效率和GPU利用率,优化通信性能。
技术关键词
深度学习模型
加速卡
控制终端
处理器运行方法
拆分规则
处理器系统
处理器架构设计技术
节点
门模块
进程监控
网络
主机
数据
列表
动态
编码
复杂度
指令
时间段