摘要
本说明书公开了一种计算集群温度告警方法、装置、存储介质及电子设备,包括:获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。通过具有可解释性的多规则的服务器告警模型,自动化判断服务器的状态,以及通过具有可解释性的多规则的集群告警模型,自动化判断计算集群的告警状态,从而自动化对计算集群的温度进行监测,以避免计算集群的温度出现异常,以防硬件受损或系统崩溃。
技术关键词
服务器
集群
温度告警方法
告警规则
样本
传感器
温度告警装置
时间段
电子设备
核心
芯片
处理器
告警模块
物理
可读存储介质
存储器
计算机
程序