基于大语言模型的推理服务处理方法、装置、设备及介质

正文

推荐专利

申请号：CN202510837276

申请日期：2025-06-20

公开号：CN120687219A

公开日期：2025-09-23

类型：发明专利

摘要

本公开提供了一种基于大语言模型的推理服务处理方法、装置、设备及介质，涉及大语言模型、无服务器架构等人工智能技术领域。该方法包括：基于在预设周期内接收到的推理服务请求，确定模型实例的实际需求数量；响应于已加载模型实例的已有数量少于实际需求数量，通过基于CRD技术生成的第一调度接口，从预先完成服务运行环境的配置的空闲节点集合中选取目标空闲节点；通过基于CRD技术生成的第二调度接口，控制预先存储在目标空闲节点中内存的模型权重数据生成与缺少数量对应的在服务运行环境下运行的新加载模型实例；利用新加载模型实例和已加载模型实例处理接收到的推理服务请求。该方案实现了模型服务环境与模型本体间的彻底解耦。

技术关键词

大语言模型自定义资源节点接口内存周期服务器架构人工智能技术计算机程序产品加载单元速率处理器通信指令数据存储可读存储介质处理单元

系统为您推荐了相关专利信息

一种电力系统状态估计方法、装置、设备及存储介质

电力系统暂态状态估计模型电力系统稳态电力系统状态估计装置深度迁移学习

基于三流图神经网络的城市违建扩张遥感变化监测方法

变化监测方法节点影像雷达生成城市

一种基于知识图谱增强大语言模型的疾病检索方法及装置

大语言模型检索装置疾病三元组文本

一种英语阅读理解自动化问题生成方法

依存句法树语句生成方法答案数据

因果经验回放的多智能体控制方法、装置、设备及介质

控制策略模型智能体控制方法集群聚类序列

基于大语言模型的推理服务处理方法、装置、设备及介质

站点导航

APP 下载