摘要
本发明公开了一种基于多级调用的大语言模型的高并发响应方式,旨在优化大规模语言模型在高并发场景下的性能。首先,小型大语言模型(LLMs)进行初步预测并评估置信度,若置信度达标则直接响应,反之则基于置信度分数和预设阈值调用大型LLMs进行二次处理。输入文本通过注意力权重剪枝,仅保留关键信息,优化资源分配和提高推理速度。在二次处理中,根据剪枝后数据规模动态选择参数量适中的大型LLMs。通过调整模型参数量和配置,系统适应不同场景和资源条件,增强灵活性与可扩展性。同时,减少大型LLMs无谓调用,优化资源分配,有效降低运行成本和能源消耗。本发明显著提升高并发环境下大语言模型的响应速度和预测准确性,实现资源高效利用。
技术关键词
资源分配
大语言模型
高并发环境
注意力
温度校准
规模
调度器
场景
数据
文本
速度
算法
动态
频率