摘要
本发明公开了一种面向移动设备的分布式Transformer大模型训练方法。在Transformer大模型的分布式训练过程中,对于参与训练的每一个移动设备,收集各异构处理器的计算资源,并基于此将Transformer中不同数量的自注意力头分配到异构处理器上进行并行计算,实现Transformer大模型中自注意力机制在移动设备上的计算加速;容错恢复过程对分布式训练过程中由于移动设备的动态性产生的可预测性故障进行提前处理,使分布式训练在不因故障而中断的情况下完成容错恢复。本发明充分利用移动设备的动态性及其多个处理器的计算资源,实现Transformer模型在移动设备上高效鲁棒的分布式训练。
技术关键词
移动设备
分布式训练
模型训练方法
异构
局域网设备
分布式协同
恢复算法
广播设备
多处理器
恢复方法
检查方法
注意力机制
笔记本电脑
通知
台式机
智能终端
定义
单片机