一种基于任务长度预测的大语言模型推理计算服务能耗优化调度方法

AITNT
正文
推荐专利
一种基于任务长度预测的大语言模型推理计算服务能耗优化调度方法
申请号:CN202510763623
申请日期:2025-06-09
公开号:CN120704868A
公开日期:2025-09-26
类型:发明专利
摘要
本发明公开了一种基于任务长度预测的大语言模型推理计算服务能耗优化调度方法,该方法包括以下步骤:首先以Alpaca‑52k指令数据集作为输入源,大语言模型(例如Llama3‑8B)进行推理,统计其输出token数目,为每个输入数据打上标签;然后,用Alpaca‑52k指令数据数据集及Llama3‑8B推理的响应长度,微调Qwen2‑1.5B大语言模型,在保证预测性能的前提下,减少预测方法的计算资源;接着,通过微调的Qwen2‑1.5B模型预测Llama3‑8B推理任务的响应长度,依此进行任务均衡排序调度以提高大语言模型推理速度,最后,使用深度强化学习的功率选择算法,在满足大语言模型推理任务时延前提下,尽可能减少计算功率,以减少大语言模型推理计算的能耗。
技术关键词
能耗优化调度方法 大语言模型 深度强化学习 功率 样本 智能体交互 更新网络参数 数据分布 课程学习方法 数据并行策略 DVFS技术 系统管理接口 调度算法 速度 生成随机 互补性特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号