一种基于多级调用的大语言模型的高并发响应方式

AITNT
正文
推荐专利
一种基于多级调用的大语言模型的高并发响应方式
申请号:CN202411006822
申请日期:2024-07-25
公开号:CN119045990A
公开日期:2024-11-29
类型:发明专利
摘要
本发明公开了一种基于多级调用的大语言模型的高并发响应方式,旨在优化大规模语言模型在高并发场景下的性能。首先,小型大语言模型(LLMs)进行初步预测并评估置信度,若置信度达标则直接响应,反之则基于置信度分数和预设阈值调用大型LLMs进行二次处理。输入文本通过注意力权重剪枝,仅保留关键信息,优化资源分配和提高推理速度。在二次处理中,根据剪枝后数据规模动态选择参数量适中的大型LLMs。通过调整模型参数量和配置,系统适应不同场景和资源条件,增强灵活性与可扩展性。同时,减少大型LLMs无谓调用,优化资源分配,有效降低运行成本和能源消耗。本发明显著提升高并发环境下大语言模型的响应速度和预测准确性,实现资源高效利用。
技术关键词
资源分配 大语言模型 高并发环境 注意力 温度校准 规模 调度器 场景 数据 文本 速度 算法 动态 频率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号