摘要
本公开提供了一种大语言模型的分布式执行方法、设备、介质及分布式集群,涉及人工智能领域,尤其涉及芯片领域。具体实现方案为:在与分布式集群中其他设备共同针对大语言模型执行张量并行计算的过程中,如果执行至计算通信组合任务,则获取计算通信组合任务的类型;将输入数据切分为与类型匹配的多个数据分块;根据各数据分块,并行执行计算通信组合任务中的矩阵乘法任务和设备间通信任务。通过将矩阵乘法任务和数据通信任务涉及的数据切分成多个数据分块,可以将完成计算的部分数据分块提前进行通信传输,并与下一数据分块的矩阵乘法计算并行处理,从而掩盖通信传输的时间开销,缩短整体计算时间,大幅提升模型训练或推理过程中的吞吐量和效率。
技术关键词
分块
设备间通信
大语言模型
分布式执行方法
执行矩阵乘法
场景
人工智能处理器
集群通信
序列
图形处理单元
计算机程序产品
执行装置
文本
数据通信
芯片
可读存储介质
系统为您推荐了相关专利信息
养老机器人
大语言模型
加密数据
对话方法
构建用户画像