基于Triton-Inference-Server的大模型高性能推理加速方法及系统

正文

推荐专利

申请号：CN202411904871

申请日期：2024-12-23

公开号：CN120012915A

公开日期：2025-05-16

类型：发明专利

摘要

本发明公开了基于Tr iton‑I nference‑Server的大模型高性能推理加速方法及系统，所述方法包括S1、接收用户提供的模型配置信息，根据模型配置检测是否存在本地模型拷贝，若不存在，则从远程存储下载模型并生成符合推理服务器要求的配置文件，S2、支持用户上传定制化模型或微调模型，并对模型进行加载、优化和参数融合，S3、根据用户需求对模型进行量化处理，采用多种量化方法以优化推理性能；该基于Tr iton‑I nference‑Server的大模型高性能推理加速方法及系统，解决了现有技术多模型推理服务系统在管理复杂性、高时延、低吞吐量及服务鲁棒性方面的局限性的问题。

技术关键词

推理服务器高性能批处理技术远程存储资源管理策略性能监控日志分析采集运行数据模块鲁棒性日志监控拷贝加速系统时延服务系统校准动态多模型镜像参数

系统为您推荐了相关专利信息

一种用于材料位错动力学模拟异构优化的远程力加速方法

并行算法存储结构设备端核材料辐照损伤存放单元结构

DPU芯片及电子设备

芯片数据封装外壳节点存储单元

一种基于知识图谱的城市中心区商业网点评价与优化方法

商业地理信息平台数据可视化平台高性能显卡随机森林

一种目标检测方法、系统及存储介质

特征提取模型计算机可执行指令矩阵场景卷积模型

网格单元质量评价方法和计算机设备

网格方程评价方法高性能计算技术计算机设备

基于Triton-Inference-Server的大模型高性能推理加速方法及系统

站点导航

APP 下载