一种基于多级调用的大语言模型的高并发响应方式

正文

推荐专利

申请号：CN202411006822

申请日期：2024-07-25

公开号：CN119045990A

公开日期：2024-11-29

类型：发明专利

摘要

本发明公开了一种基于多级调用的大语言模型的高并发响应方式，旨在优化大规模语言模型在高并发场景下的性能。首先，小型大语言模型(LLMs)进行初步预测并评估置信度，若置信度达标则直接响应，反之则基于置信度分数和预设阈值调用大型LLMs进行二次处理。输入文本通过注意力权重剪枝，仅保留关键信息，优化资源分配和提高推理速度。在二次处理中，根据剪枝后数据规模动态选择参数量适中的大型LLMs。通过调整模型参数量和配置，系统适应不同场景和资源条件，增强灵活性与可扩展性。同时，减少大型LLMs无谓调用，优化资源分配，有效降低运行成本和能源消耗。本发明显著提升高并发环境下大语言模型的响应速度和预测准确性，实现资源高效利用。

技术关键词

资源分配大语言模型高并发环境注意力温度校准规模调度器场景数据文本速度算法动态频率

一种基于多级调用的大语言模型的高并发响应方式

站点导航

APP 下载