大语言模型的推理服务部署方法、装置、设备和存储介质

AITNT
正文
推荐专利
大语言模型的推理服务部署方法、装置、设备和存储介质
申请号:CN202510697696
申请日期:2025-05-28
公开号:CN120218257B
公开日期:2025-09-05
类型:发明专利
摘要
本申请涉及一种大语言模型的推理服务部署方法、装置、设备和存储介质,涉及人工智能技术领域。所述方法包括:获取大语言模型的参数数量、多个待分配设备各自的显存容量、计算核心数量以及网络信息,并确定多种待分配设备的设备组合,每种设备组合由用于预填充阶段的第一设备和用于解码阶段的第二设备组成;针对每种设备组合,基于参数数量、多个待分配设备各自的显存容量以及单个输入文本单元对应的占位空间,确定文本单元处理能力;基于文本单元处理能力、多个待分配设备各自的计算核心数量,及网络信息,确定当前设备组合下的推理延迟;在多个设备组合中确定推理延迟符合预设延迟条件的目标设备组合。采用本方法能够提高大语言模型推理效率。
技术关键词
分配设备 大语言模型 文本 服务部署方法 核心 解码 键值 阶段 网络 参数 人工智能技术 数据 计算机程序产品 处理器 计算机设备 模块 可读存储介质 存储器 链路
系统为您推荐了相关专利信息
1
基于自然语言处理的电子病历特征提取方法
脑损伤患者 实体 文本 自然语言 电子病历特征
2
语音识别控制方法、装置、存储介质和计算机设备
语音识别控制方法 标志 文本 晾衣机 语音识别控制装置
3
作文批阅方法、装置、设备、存储介质及产品
批阅方法 数值 电子设备 处理器 处理单元
4
基于AI智能大模型的稿件生成服务辅助系统
服务辅助系统 语义向量 预训练语言模型 索引表 控制模块
5
信息获取方法、装置、电子设备及计算机可读存储介质
信息获取方法 图像 模板 数据 可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号