摘要
本申请涉及数据处理领域,尤其是一种面向大语言模型训练的集群监控方法以及相关装置。该方法包括:获取目标对象的原始运行数据;目标对象为专用集成电路TPU集群中的一个或多个TPU节点;TPU节点用于加速大语言模型的训练任务和推理任务;将原始运行数据转换为目标对象的待处理硬件信息;待处理硬件信息的转换方式基于TPU集群中待监测的多个指标维度配置得到;根据待处理硬件信息生成实时展示信息,并实时更新到监控面板中进行展示;实时展示信息至少包括:TPU集群对应的硬件监控信息以及计算状态信息。该方法能够实现TPU集群的实时监控,提升集群监控效率,以及集群监控系统的拓展性和灵活性。
技术关键词
大语言模型
集群监控方法
监控面板
告警规则
对象
节点
数据接口
指标
序列
集群监控系统
场景
集成电路
计算机
芯片
内存
端点
标签
系统为您推荐了相关专利信息
低压配电网拓扑
交流配电网
配电网模型
云端
大语言模型
对象属性信息
多模态
文本特征向量
计算机存储介质
图像
环境感知方法
温度分布图像
三维点云数据
计算机视觉
分布特征
预测模型训练方法
大语言模型
场景
违停车辆
高灵敏度麦克风