面向复杂场景的AI大模型轻量化部署方法

正文

推荐专利

面向复杂场景的AI大模型轻量化部署方法

申请号：CN202511454102

申请日期：2025-10-13

公开号：CN120930709B

公开日期：2025-12-23

类型：发明专利

摘要

本发明提供面向复杂场景的AI大模型轻量化部署方法，涉及边缘计算技术领域，所述方法包括：基于注意力头重要性评分对预训练Transformer网络执行结构化剪枝，根据输入张量熵值动态稀疏化前馈网络激活状态，采用动态混合精度量化，获得剪枝量化后的网络参数；将剪枝量化后的网络参数部署至边缘计算设备，通过异构计算调度器将特征提取算子分配至神经网络处理器，分类算子卸载至多核中央处理器；结合虚拟内存分页机制管理片上存储器，利用直接内存访问控制器实现零拷贝数据传输，输出推理结果张量。本发明实现大模型在资源受限边缘节点的高效和可靠运行。

技术关键词

神经网络处理器内存访问控制器服务等级协议中央处理器分页机制时延资源静态存储器动态随机存储器参数差分隐私局部敏感哈希索引注意力场景拉普拉斯噪声边缘计算技术分区拷贝