大语言模型的推理服务部署方法、装置、设备和存储介质

正文

推荐专利

申请号：CN202510697696

申请日期：2025-05-28

公开号：CN120218257B

公开日期：2025-09-05

类型：发明专利

摘要

本申请涉及一种大语言模型的推理服务部署方法、装置、设备和存储介质，涉及人工智能技术领域。所述方法包括：获取大语言模型的参数数量、多个待分配设备各自的显存容量、计算核心数量以及网络信息，并确定多种待分配设备的设备组合，每种设备组合由用于预填充阶段的第一设备和用于解码阶段的第二设备组成；针对每种设备组合，基于参数数量、多个待分配设备各自的显存容量以及单个输入文本单元对应的占位空间，确定文本单元处理能力；基于文本单元处理能力、多个待分配设备各自的计算核心数量，及网络信息，确定当前设备组合下的推理延迟；在多个设备组合中确定推理延迟符合预设延迟条件的目标设备组合。采用本方法能够提高大语言模型推理效率。

技术关键词

分配设备大语言模型文本服务部署方法核心解码键值阶段网络参数人工智能技术数据计算机程序产品处理器计算机设备模块可读存储介质存储器链路

系统为您推荐了相关专利信息

基于自然语言处理的电子病历特征提取方法

脑损伤患者实体文本自然语言电子病历特征

语音识别控制方法、装置、存储介质和计算机设备

语音识别控制方法标志文本晾衣机语音识别控制装置

作文批阅方法、装置、设备、存储介质及产品

批阅方法数值电子设备处理器处理单元

基于AI智能大模型的稿件生成服务辅助系统

服务辅助系统语义向量预训练语言模型索引表控制模块

信息获取方法、装置、电子设备及计算机可读存储介质

信息获取方法图像模板数据可读存储介质

大语言模型的推理服务部署方法、装置、设备和存储介质

站点导航

APP 下载