摘要
本发明涉及大语言模型推理技术领域,公开了一种基于模糊语义匹配的大语言模型键值缓存复用方法和系统,方法包括:根据用户的历史推理请求中的词元生成键值缓存,将多个词元聚集成词元块,生成词元块的嵌入向量,建立向量数据库;计算新的推理请求的词元块的嵌入向量与向量数据库中历史嵌入向量的余弦相似度,若存在余弦相似度超过设定阈值的历史词元块,则通过哈希索引获取对应的键值缓存并复用;计算注意力分数,基于所述注意力分数将当前词元块中的多个词元区分为关键词元和非关键词元;对关键词元重新计算键值缓存;对关键词元的重新计算的键值缓存以及对非关键次元复用键值缓存组成混合键值缓存。本发明方法能够在几乎不降低模型精度的前提下,将键值缓存复用技术从精确匹配拓展至模糊语义匹配,有效削减不必要的计算开销,进而提升推理效率。
技术关键词
键值
模糊语义
复用方法
关键词
注意力
词嵌入模型
推理技术
大语言模型
复用技术
索引
计算机系统
新词
存储器
处理器
阶段
解码
精度
系统为您推荐了相关专利信息
注意力机制
语义分割方法
语义特征
序列化特征
数据
功率分配模型
功率分配策略
协同通信方法
模型更新
车辆对车辆通信
语义特征提取
文本
LSTM模型
电力系统安全技术
电网事故预案