摘要
本发明提供了一种端边云协同的语言模型分布式推理方法,该方法包括:针对多种语言模型对应的推理任务,收集各设备处理语言模型的每层的推理时间、每层的输出数据量、每层的资源开销,以及获取各设备的可用资源和网络带宽;在未达到预定的要求时,采用静态的调度机制确定的卸载设备向其可调度设备卸载推理任务的指定关系;在达到预定的要求时,启用动态的调度机制,以最大化多个推理任务的估计平均节约时间为优化目标,优化各推理任务被调度到其可调度设备的比例,得到每个推理任务的调度决策;获取包含各推理任务的调度决策的任务列表,选择性地调整任务列表中任务的执行顺序以平衡地利用每个可调度设备的资源。
技术关键词
调度设备
分布式推理方法
资源
列表
遗传算法
决策
任务调度
机制
指标
计算机程序产品
处理器
关系
指令
动态
可读存储介质
存储器
电子设备
队列
总量