摘要
本发明公开了一种嵌入式异构系统推测解码动态调度轻量化方法及系统,所述方法包括:将推测解码任务分配至CPU、GPU和NPU三类处理器中,对推测解码过程中的草稿模型和目标模型进行模型压缩处理后,各处理器执行对应分配的推测解码任务,构建负载评估模型对推测解码过程中处理器的负载情况进行评估,根据评估结果动态调整草稿生成长度,引入多草稿并行处理机制,并对各草稿生成线程动态分配资源。该方法通过对推测解码过程中的模型压缩和计算调度策略进行联合优化,实现了推理性能的提升与功耗的降低,为解决大语言模型在嵌入式设备资源受限条件下的推理效率瓶颈问题提供了帮助。
技术关键词
轻量化方法
异构系统
解码
模型压缩
序列
动态
轻量化模型结构
线性
队列
处理器
内存访问方法
蒸馏
表达式
生成特征向量
环形缓冲区
精度
资源
核心
嵌入式设备
矩阵
系统为您推荐了相关专利信息
协同跟踪控制方法
多智能体系统
多智能体协同
非线性
数学模型
特征提取模型
效能评估方法
量子优化算法
数据
动态调整机制
三维图像重建方法
组织切片
原始图像数据
条纹
三维重建图像
位姿检测方法
注意力机制
Softmax函数
多层感知机
点云特征提取