摘要
本申请实施例涉及大语言模型技术领域,公开了一种基于LLM提示词的融合缓存方法、系统、设备及介质。将用户输入的提示词转化为嵌入向量并存储于向量数据库中;基于所述向量数据库利用向量检索技术计算新提示词与历史提示词的语义相似性,筛选相似提示词;将LLM大语言模型根据提示词生成的推理结果存储于Redis缓存中;基于所述相似提示词进行检索,快速返回所述Redis缓存中对应的推理结果;将提示词拆分并进行分片存储,针对每个分片独立存储对应的KV Cache。可以至少用以解决大语言模型推理过程中产生的计算资源和显存资源浪费的技术问题。
技术关键词
向量检索技术
缓存方法
分片
计算机程序指令
大语言模型
语义
缓存系统
电子设备
处理器
介质
复杂度
组织
模块
索引
负担
存储器
标记
动态
系统为您推荐了相关专利信息
培训系统
数据采集模块
SQLite数据库
VR头戴式设备
语义向量
大语言模型
决策算法
数据
指令
非暂态计算机可读存储介质
分析管理方法
置信度阈值
多任务
大语言模型
水果图像
图谱
异常事件
推理规则
命名实体识别
计算机程序指令