摘要
一种端云LLM混合服务框架下端侧LLM的优化方法,通过终端收集用户和云侧LLM的历史交互数据并构建外部数据库后,评估其中每个元素的价值并生成最优数据库子集;当收到用户输入时,终端将端侧LLM的生成结果和在最优数据库子集中的k‑近邻检索结果加权得到端侧回复结果,实现推理增强。本发明通过使用用户和云侧的历史交互记录建立外部数据库以显著提升端侧LLM生成质量,并通过离线和在线子集选择算法进行数据库压缩,二者都有接近(1‑1/e)的近似比保证,带来的困惑度(PPL)下降多于其他数据库压缩算法。
技术关键词
框架
数据
终端
离线
在线
压缩算法
话题
编码
序列
元素
系统为您推荐了相关专利信息
参数搜索方法
数据
处理器
计算机程序指令
搜索场景
图像翻译方法
生成对抗网络
翻译模型
注意力机制
阶段
预测网络模型
特征识别方法
三维CAD模型
序列
编码器
空调工作状态
空调控制方法
空调运行状态
压缩机
循环神经网络模型
图像特征数据
评价系统
艺术家
图像特征提取
信息熵