大语言模型的请求处理方法、装置、介质、设备及产品

正文

推荐专利

申请号：CN202411119228

申请日期：2024-08-14

公开号：CN118916175A

公开日期：2024-11-08

类型：发明专利

摘要

本公开涉及一种大语言模型的请求处理方法、装置、介质、设备及产品，涉及机器学习技术领域，该方法通过获取发送至大语言模型的服务请求，并通过部署于第一图形处理器的大语言模型，对服务请求进行预填充处理，获得服务请求对应的预填充结果，并将预填充结果发送至第二图形处理器，以及通过部署于第二图形处理器的大语言模型，对预填充结果进行解码处理，获得服务请求对应的推理结果，可以将大语言模型的预填充阶段与解码阶段进行解耦，从而提高GPU资源的利用率以及提高大语言模型的服务吞吐量。

技术关键词

图形处理器大语言模型解码调度器机器学习技术存储装置电子设备计算机程序产品客户端介质阶段模块资源

系统为您推荐了相关专利信息

一种基于动态自适应增强大语言模型知识边界感知能力的方法及装置

大语言模型答案惩罚策略非暂态计算机可读存储介质生成工具

一种自动驾驶汽车感知不确定性量化方法及装置

不确定性量化方法协方差矩阵包络激光雷达传感器解码器

一种车辆场景构建方法、车辆装置及车机系统

场景构建方法稀疏特征图像特征识别解码模型多尺度特征

一种云手机个性化的配置方法及相关设备

关联规则挖掘算法手机系统资源分配策略视频编码码率参数

一种分析报告生成方法、装置、设备、介质及产品

分析报告生成方法变量数据模板策略

大语言模型的请求处理方法、装置、介质、设备及产品

站点导航

APP 下载