摘要
针对用户输入的多样性以及大语言模型在处理复杂和简单查询时的资源消耗差异问题,本发明提出了一种大语言模型下的动态推理方法和系统,通过将用户输入的提示语句进行分词处理,并利用两个不同的识别模型分别计算每个分词的匹配度,进而计算出推理控制因子。该推理控制因子用于指导大语言模型内部的动态推理过程,具体是通过调整Key‑Value缓存的管理策略来实现的。在当前token与上下文token之间的相对距离超过由推理控制因子确定的范围时,相关的Key和Value会被从缓存中移除。这种方法有效地平衡了存储空间的使用和推理效率,使得大语言模型能够根据不同类型的用户输入动态调整其内部资源分配,从而提高了整体的响应速度和准确性。
技术关键词
动态推理方法
大语言模型
分词
语句
因子
分布式内存数据库
神经网络模型
动态更新
交互性
可读存储介质
模块
管理策略
文本
资源分配
计算机
处理器
界面
样本
阶段
系统为您推荐了相关专利信息
舆情分析方法
情感分析模型
关键词
语义
河流生态环境
动态路径规划方法
物流仓库
启发式信息
AGV路径规划
物流自动化控制技术
动态测量方法
滚珠
轴承径向游隙
计算机程序指令
掩膜