基于封装引擎实现机器学习和大语言模型的推理加速方法

正文

推荐专利

申请号：CN202411713241

申请日期：2024-11-27

公开号：CN119204231A

公开日期：2024-12-27

类型：发明专利

摘要

本发明提出基于封装引擎实现机器学习和大语言模型的推理加速方法，包括：在推理引擎中接收布尔参数enable_cache；根据传入的enable_cache值，执行条件判断逻辑，决定是否执行缓存查询：在指定的文件路径下创建Triton模型仓库，为每个模型建立独立的文件夹；在config.pbtxt文件中，定义模型的版本信息、输入输出张量名称、数据类型及维度；使用命令行工具启动Triton Inference Server，并指定模型仓库路径。本发明在提升推理速度、优化资源使用、改善用户体验、降低成本及增强可扩展性等方面都展现出显著的优势，为大型模型的实际应用提供了强有力的支持。

技术关键词

推理服务器命令行工具仓库文件夹回调机制客户端参数查询方法监控终端动态更新文件系统提升系统定义逻辑标识符键值接口语句脚本日志

系统为您推荐了相关专利信息

改进鸽群优化算法应用在单仓库多旅行商问题的方法

鸽群优化算法 K均值聚类算法仓库矩阵路径优化方法

用于工程造价大数据分析与智能决策支持的系统

结构构件智能决策支持地理信息数据物联网采集终端非线性

一种基于商品信息的校验入库方法、系统、设备及介质

多维特征向量特征谱图入库方法融合特征图像特征向量

一种鉴权的方法、装置、设备、存储介质及程序产品

登录界面读取设备 SIM卡计算机程序指令近场通信

一种基于无人机智能巡检的FAST结构损伤数据系统

智能巡检标注工具数据采集模块反射面单元杆件

基于封装引擎实现机器学习和大语言模型的推理加速方法

站点导航

APP 下载