摘要
本发明公开了一种基于任务长度预测的大语言模型推理计算服务能耗优化调度方法,该方法包括以下步骤:首先以Alpaca‑52k指令数据集作为输入源,大语言模型(例如Llama3‑8B)进行推理,统计其输出token数目,为每个输入数据打上标签;然后,用Alpaca‑52k指令数据数据集及Llama3‑8B推理的响应长度,微调Qwen2‑1.5B大语言模型,在保证预测性能的前提下,减少预测方法的计算资源;接着,通过微调的Qwen2‑1.5B模型预测Llama3‑8B推理任务的响应长度,依此进行任务均衡排序调度以提高大语言模型推理速度,最后,使用深度强化学习的功率选择算法,在满足大语言模型推理任务时延前提下,尽可能减少计算功率,以减少大语言模型推理计算的能耗。
技术关键词
能耗优化调度方法
大语言模型
深度强化学习
功率
样本
智能体交互
更新网络参数
数据分布
课程学习方法
数据并行策略
DVFS技术
系统管理接口
调度算法
速度
生成随机
互补性特征