摘要
本公开提供了一种基于大语言模型的推理服务处理方法、装置、设备及介质,涉及大语言模型、无服务器架构等人工智能技术领域。该方法包括:基于在预设周期内接收到的推理服务请求,确定模型实例的实际需求数量;响应于已加载模型实例的已有数量少于实际需求数量,通过基于CRD技术生成的第一调度接口,从预先完成服务运行环境的配置的空闲节点集合中选取目标空闲节点;通过基于CRD技术生成的第二调度接口,控制预先存储在目标空闲节点中内存的模型权重数据生成与缺少数量对应的在服务运行环境下运行的新加载模型实例;利用新加载模型实例和已加载模型实例处理接收到的推理服务请求。该方案实现了模型服务环境与模型本体间的彻底解耦。
技术关键词
大语言模型
自定义资源
节点
接口
内存
周期
服务器架构
人工智能技术
计算机程序产品
加载单元
速率
处理器通信
指令
数据存储
可读存储介质
处理单元
系统为您推荐了相关专利信息
电力系统暂态
状态估计模型
电力系统稳态
电力系统状态估计装置
深度迁移学习