摘要
本发明提出基于封装引擎实现机器学习和大语言模型的推理加速方法,包括:在推理引擎中接收布尔参数enable_cache;根据传入的enable_cache值,执行条件判断逻辑,决定是否执行缓存查询:在指定的文件路径下创建Triton模型仓库,为每个模型建立独立的文件夹;在config.pbtxt文件中,定义模型的版本信息、输入输出张量名称、数据类型及维度;使用命令行工具启动Triton Inference Server,并指定模型仓库路径。本发明在提升推理速度、优化资源使用、改善用户体验、降低成本及增强可扩展性等方面都展现出显著的优势,为大型模型的实际应用提供了强有力的支持。
技术关键词
推理服务器
命令行工具
仓库
文件夹
回调机制
客户端
参数
查询方法
监控终端
动态更新
文件系统
提升系统
定义
逻辑
标识符
键值
接口
语句
脚本
日志
系统为您推荐了相关专利信息
鸽群优化算法
K均值聚类算法
仓库
矩阵
路径优化方法
结构构件
智能决策支持
地理信息数据
物联网采集终端
非线性
多维特征向量
特征谱图
入库方法
融合特征
图像特征向量
登录界面
读取设备
SIM卡
计算机程序指令
近场通信
智能巡检
标注工具
数据采集模块
反射面单元
杆件