摘要
本发明公开了一种智能运维服务方法及系统,结合智能算法,基于现有的监控数据对系统当前的整体健康做综合判断,并对未来一段时间的系统健康做出相对准确的预判,并自动调度相关处理措施,在问题出现前或问题刚刚出现时,立刻实施处理措施,可以显著降低系统问题次数和问题持续时间。本发明方案可以在固定时间范围(如1小时)内对每个容器/服务器节点进行量化评估巡检,如果通过健康分将问题容器/服务器节点暴露出来,就可以通过健康分进行分级处理,后续还能通过系统资源的智能运维调度进行自动运维,可以显著提升运维效率。
技术关键词
服务器节点
整体健康
智能运维服务系统
容器
数据采集模块
数据对系统
服务器主机
运维故障
运维工单
错误日志
智能算法
指标
存储器
处理器
错误率