摘要
本发明公开了一种基于DMA Direct的高可靠异构平台,平台正常运行时的步骤为:S1:由监控单元对PCIe拓扑进行扫描;S2:使用DMA Direct技术配置每个RDMA网卡与对应的GPU模块之间的通信路径,建立直接数据传输通道,直接数据传输通道为第一RDMA网卡‑第一PCIe交换芯片‑第一GPU模块或第二RDMA网卡‑第二PCIe交换芯片‑第二GPU模块;S3:使用任务调度单元将直接数据传输通道中的待处理数据分配至对应的第一GPU模块或第二GPU模块,数据通过GPU Direct的传输方式在每个RDMA网卡和对应GPU模块之间进行传输,每组GPU模块完成计算后,计算后结果的传输路径为:第一GPU模块‑第一PCIe交换芯片‑第一RDMA网卡或第二GPU模块‑第二PCIe交换芯片‑第二RDMA网卡;依据计算后结果的传输路径原路返回给调度单元。
技术关键词
RDMA网卡
异构平台
芯片
监控单元
PCIe拓扑
复合体
切换数据传输路径
多点故障
CPU模块
检测链路状态
双通道架构
任务分配策略
任务调度
模式