网络容错方法、装置、设备、介质和产品

正文

推荐专利

网络容错方法、装置、设备、介质和产品

申请号：CN202510819825

申请日期：2025-06-18

公开号：CN120896837A

公开日期：2025-11-04

类型：发明专利

摘要

本公开提供了一种网络容错方法、装置、设备、介质和产品，涉及人工智能技术领域，具体涉及网络通信、云计算、算力、大模型等技术领域。网络容错方法包括：获取GPU集群中的主用网卡的网卡状态；所述GPU集群用于执行大模型任务；所述网卡状态是基于主用网卡自身获得的；在所述网卡状态包括故障状态时，中止执行大模型任务；在中止执行所述大模型任务后，将所述故障状态对应的故障网卡上的数据切换到所述故障网卡对应的备用网卡上；所述备用网卡是基于目标通信库分配的，所述目标通信库用于为所述GPU集群提供通信服务；在基于所述目标通信库确定所述GPU集群完成网卡切换后，恢复执行所述大模型任务。本公开可以提高网络容错性能。

技术关键词

网卡网络容错集群通信服务链路人工智能技术数据计算机程序产品处理器通信网络通信指令可读存储介质模块存储器电子设备资源

系统为您推荐了相关专利信息

基于双重强化学习的问答模型集群协同问答方法、系统、设备及介质

问答模型答案问答方法集群策略

一种基于智能策略调控的物联网卡套餐动态配置方法

动态配置方法策略频段终端运行状态偏差

对Kubernetes集群中文件的管理方法及系统

管理方法集群进程计算机云计算技术文件读事件

一种地质结构测绘方法和系统

主控无人机网格测绘方法节点地质结构模型

CF-RAN系统的资源调度处理方法、装置及电子设备

收发机处理单元接入点设备功率控制策略中央处理器

网络容错方法、装置、设备、介质和产品

站点导航

APP 下载