面向大语言模型训练的集群监控方法以及相关装置

AITNT
正文
推荐专利
面向大语言模型训练的集群监控方法以及相关装置
申请号:CN202411828164
申请日期:2024-12-12
公开号:CN119271505B
公开日期:2025-09-26
类型:发明专利
摘要
本申请涉及数据处理领域,尤其是一种面向大语言模型训练的集群监控方法以及相关装置。该方法包括:获取目标对象的原始运行数据;目标对象为专用集成电路TPU集群中的一个或多个TPU节点;TPU节点用于加速大语言模型的训练任务和推理任务;将原始运行数据转换为目标对象的待处理硬件信息;待处理硬件信息的转换方式基于TPU集群中待监测的多个指标维度配置得到;根据待处理硬件信息生成实时展示信息,并实时更新到监控面板中进行展示;实时展示信息至少包括:TPU集群对应的硬件监控信息以及计算状态信息。该方法能够实现TPU集群的实时监控,提升集群监控效率,以及集群监控系统的拓展性和灵活性。
技术关键词
大语言模型 集群监控方法 监控面板 告警规则 对象 节点 数据接口 指标 序列 集群监控系统 场景 集成电路 计算机 芯片 内存 端点 标签
系统为您推荐了相关专利信息
1
一种基于云边融合的大语言模型低压配电网拓扑感知方法
低压配电网拓扑 交流配电网 配电网模型 云端 大语言模型
2
目标对象属性信息预测方法、电子设备及计算机存储介质
对象属性信息 多模态 文本特征向量 计算机存储介质 图像
3
智能体获取方法、智能体交互方法、装置、设备及介质
体知识库 智能体交互 对象 语音特征 画面
4
环境感知方法、空调器的控制方法、空调设备及存储介质
环境感知方法 温度分布图像 三维点云数据 计算机视觉 分布特征
5
基于大语言模型的预测模型训练系统及方法
预测模型训练方法 大语言模型 场景 违停车辆 高灵敏度麦克风
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号