基于Triton-Inference-Server的大模型高性能推理加速方法及系统

AITNT
正文
推荐专利
基于Triton-Inference-Server的大模型高性能推理加速方法及系统
申请号:CN202411904871
申请日期:2024-12-23
公开号:CN120012915A
公开日期:2025-05-16
类型:发明专利
摘要
本发明公开了基于Tr iton‑I nference‑Server的大模型高性能推理加速方法及系统,所述方法包括S1、接收用户提供的模型配置信息,根据模型配置检测是否存在本地模型拷贝,若不存在,则从远程存储下载模型并生成符合推理服务器要求的配置文件,S2、支持用户上传定制化模型或微调模型,并对模型进行加载、优化和参数融合,S3、根据用户需求对模型进行量化处理,采用多种量化方法以优化推理性能;该基于Tr iton‑I nference‑Server的大模型高性能推理加速方法及系统,解决了现有技术多模型推理服务系统在管理复杂性、高时延、低吞吐量及服务鲁棒性方面的局限性的问题。
技术关键词
推理服务器 高性能 批处理技术 远程存储 资源管理策略 性能监控 日志分析 采集运行数据 模块 鲁棒性 日志监控 拷贝 加速系统 时延 服务系统 校准 动态 多模型 镜像 参数
系统为您推荐了相关专利信息
1
一种用于材料位错动力学模拟异构优化的远程力加速方法
并行算法 存储结构 设备端 核材料辐照损伤 存放单元结构
2
DPU芯片及电子设备
芯片 数据 封装外壳 节点 存储单元
3
一种基于知识图谱的城市中心区商业网点评价与优化方法
商业 地理信息平台 数据可视化平台 高性能显卡 随机森林
4
一种目标检测方法、系统及存储介质
特征提取模型 计算机可执行指令 矩阵 场景 卷积模型
5
网格单元质量评价方法和计算机设备
网格 方程 评价方法 高性能计算技术 计算机设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号