请求结果的生成方法、装置、大模型推理架构、向量数据库、设备、存储介质和程序产品

正文

推荐专利

申请号：CN202510411411

申请日期：2025-04-02

公开号：CN120523888A

公开日期：2025-08-22

类型：发明专利

摘要

本申请涉及一种请求结果的生成方法、装置、大模型推理架构、向量数据库、设备、存储介质和程序产品。所述方法包括：将预填充阶段得到的键值缓存数据卸载至与大语言模型解耦的向量数据库进行存储，并采用与大语言模型解耦的向量数据库执行文本生成任务中解码阶段的上下文向量检索与注意力得分的计算，使得大语言模型可以快速复用向量数据库得到的目标上下文向量以及其注意力得分进行文本生成推理，生成与用户请求数据对应的请求结果。采用本方法能够大幅减少大语言模型的数据处理量，降低大语言模型的长上下文推理成本。

技术关键词

键值大语言模型注意力查询策略推理架构结点生成方法查询优化器数据通信接口阶段解码中央处理器图形处理器队列会话索引资源分配

请求结果的生成方法、装置、大模型推理架构、向量数据库、设备、存储介质和程序产品

站点导航

APP 下载