摘要
本公开提供了一种用户请求处理方法、大模型服务系统、设备以及存储介质,涉及计算机技术领域,尤其涉及人工智能、大语言模型等技术领域。具体实现方案为:接收第一用户请求;对该第一用户请求进行分词,以得到该第一用户请求对应的分词序列;根据该分词序列,确定该第一用户请求的可复用的键值对缓存;在该可复用的键值对缓存处于从GPU向CPU传输过程中的情况下,停止传输该可复用的键值对缓存,并将该可复用的键值对缓存分配给该第一用户请求。本公开能够提升用户请求的处理效率。
技术关键词
键值
图像处理器
中央处理器
分词
服务系统
序列
资源
大语言模型
计算机程序产品
尺寸
处理器通信
指令
可读存储介质
存储器
逻辑
基准
电子设备
关系