摘要
本发明提供面向复杂场景的AI大模型轻量化部署方法,涉及边缘计算技术领域,所述方法包括:基于注意力头重要性评分对预训练Transformer网络执行结构化剪枝,根据输入张量熵值动态稀疏化前馈网络激活状态,采用动态混合精度量化,获得剪枝量化后的网络参数;将剪枝量化后的网络参数部署至边缘计算设备,通过异构计算调度器将特征提取算子分配至神经网络处理器,分类算子卸载至多核中央处理器;结合虚拟内存分页机制管理片上存储器,利用直接内存访问控制器实现零拷贝数据传输,输出推理结果张量。本发明实现大模型在资源受限边缘节点的高效和可靠运行。
技术关键词
神经网络处理器
内存访问控制器
服务等级协议
中央处理器
分页机制
时延
资源
静态存储器
动态随机存储器
参数
差分隐私
局部敏感哈希索引
注意力
场景
拉普拉斯噪声
边缘计算技术
分区
拷贝
系统为您推荐了相关专利信息
佩戴检测方法
交通路口
头盔
卷积模块
特征融合网络
神经网络处理单元
神经网络处理器
调控单元
光电探测器阵列
光场调控
容量预测模型
云数据中心
资源
分布式数据采集
存储空间利用率
人体老化
中央控制模块
视觉装置
穿戴装置
高分辨率显示屏
设备监控方法
故障检测
故障特征
场景
设备监控装置