摘要
本申请涉及一种请求结果的生成方法、装置、大模型推理架构、向量数据库、设备、存储介质和程序产品。所述方法包括:将预填充阶段得到的键值缓存数据卸载至与大语言模型解耦的向量数据库进行存储,并采用与大语言模型解耦的向量数据库执行文本生成任务中解码阶段的上下文向量检索与注意力得分的计算,使得大语言模型可以快速复用向量数据库得到的目标上下文向量以及其注意力得分进行文本生成推理,生成与用户请求数据对应的请求结果。采用本方法能够大幅减少大语言模型的数据处理量,降低大语言模型的长上下文推理成本。
技术关键词
键值
大语言模型
注意力
查询策略
推理架构
结点
生成方法
查询优化器
数据通信接口
阶段
解码
中央处理器
图形处理器
队列
会话
索引
资源分配