摘要
本发明公开了一种大模型推理集群的推理性能数据获取方法、装置及设备,涉及人工智能技术领域,包括:在存在推理请求的情况下,针对目标大模型推理集群中每个计算节点,确定推理请求发起位置、推理请求完成回复位置、首个token返回的位置和推理总时长;根据所获取的推理请求发起位置的请求发起数量、推理请求完成回复位置在单位时间内的吞吐量、首个token的处理时长和每个token的处理时长,得到推理性能数据。由此,通过统计每个计算节点的请求发起数量、吞吐量和时延,可以得到集群所有计算节点的推理性能信息,解决了集群推理性能数据难以准确获取的问题,达到了高效、精准地监控和管理大模型推理集群性能的技术效果。
技术关键词
数据获取方法
时间序列数据库
集群
节点
统计特征
时延
数据获取装置
可读存储介质
存储计算机程序
人工智能技术
计算机程序产品
分层
处理器
异常点
频率
规模
面板
周期
系统为您推荐了相关专利信息
疲劳监测方法
涡轮叶片
LSTM模型
特征向量机
疲劳状态监测
分布式计算框架
任务调度器
分布式文件系统
状态转换概率
节点
节点
模型更新
网络拓扑结构
非临时性存储介质
加权平均策略