摘要
本申请提供了一种面向边缘计算的大模型压缩和部署方法及装置,该方法包括:基于实时监测的边缘设备的硬件资源信息和大模型当前任务的任务信息动态调整大模型的动态剪枝策略和量化方式,基于调整后的动态剪枝策略和量化方式对大模型进行压缩,将压缩后的大模型部署到边缘设备中,基于多个通过网络连接的边缘设备组建对应的边缘设备集群,在边缘设备集群中设置一分布式任务调度器,以通过分布式任务调度器根据硬件资源信息和当前任务的负载,将大模型的任务分配到各个边缘设备,通过边缘设备对任务进行执行时,响应于边缘设备查询到所有边缘设备的本地缓存中存在目标常用数据和模型中间结果,则将目标常用数据和模型中间结果进行融合以执行任务。
技术关键词
硬件资源信息
分布式任务调度
动态剪枝
比特数
模型压缩
精度
机器可读指令
策略
集群
低比特量化
补偿值
处理器
可读存储介质
数据
电子设备
存储器
模块
计算机
误差
系统为您推荐了相关专利信息
健康状态预警方法
光储充电站
跨站点
在线学习机制
故障预测模型
面向油气管道
多源异构数据融合
数字孪生驱动
智能分析方法
动态偏移补偿
超声造影
可视化技术
图像分析模型
加密
医学图像分析方法
模型训练方法
阶段
场景
神经网络结构
梯度下降算法