一种基于任务长度预测的大语言模型推理计算服务能耗优化调度方法

正文

推荐专利

申请号：CN202510763623

申请日期：2025-06-09

公开号：CN120704868A

公开日期：2025-09-26

类型：发明专利

摘要

本发明公开了一种基于任务长度预测的大语言模型推理计算服务能耗优化调度方法，该方法包括以下步骤：首先以Alpaca‑52k指令数据集作为输入源，大语言模型(例如Llama3‑8B)进行推理，统计其输出token数目，为每个输入数据打上标签；然后，用Alpaca‑52k指令数据数据集及Llama3‑8B推理的响应长度，微调Qwen2‑1.5B大语言模型，在保证预测性能的前提下，减少预测方法的计算资源；接着，通过微调的Qwen2‑1.5B模型预测Llama3‑8B推理任务的响应长度，依此进行任务均衡排序调度以提高大语言模型推理速度，最后，使用深度强化学习的功率选择算法，在满足大语言模型推理任务时延前提下，尽可能减少计算功率，以减少大语言模型推理计算的能耗。

技术关键词

能耗优化调度方法大语言模型深度强化学习功率样本智能体交互更新网络参数数据分布课程学习方法数据并行策略 DVFS技术系统管理接口调度算法速度生成随机互补性特征

一种基于任务长度预测的大语言模型推理计算服务能耗优化调度方法

站点导航

APP 下载