摘要
本发明公开了基于Tr iton‑I nference‑Server的大模型高性能推理加速方法及系统,所述方法包括S1、接收用户提供的模型配置信息,根据模型配置检测是否存在本地模型拷贝,若不存在,则从远程存储下载模型并生成符合推理服务器要求的配置文件,S2、支持用户上传定制化模型或微调模型,并对模型进行加载、优化和参数融合,S3、根据用户需求对模型进行量化处理,采用多种量化方法以优化推理性能;该基于Tr iton‑I nference‑Server的大模型高性能推理加速方法及系统,解决了现有技术多模型推理服务系统在管理复杂性、高时延、低吞吐量及服务鲁棒性方面的局限性的问题。
技术关键词
推理服务器
高性能
批处理技术
远程存储
资源管理策略
性能监控
日志分析
采集运行数据
模块
鲁棒性
日志监控
拷贝
加速系统
时延
服务系统
校准
动态
多模型
镜像
参数
系统为您推荐了相关专利信息
并行算法
存储结构
设备端
核材料辐照损伤
存放单元结构
商业
地理信息平台
数据可视化平台
高性能显卡
随机森林
特征提取模型
计算机可执行指令
矩阵
场景
卷积模型