一种面向资源受限设备的大语言模型推理优化方法及系统、装置、介质

正文

推荐专利

申请号：CN202511034965

申请日期：2025-07-25

公开号：CN120996186A

公开日期：2025-11-21

类型：发明专利

摘要

本申请涉及人工智能技术领域，涉及一种面向资源受限设备的大语言模型推理优化方法及系统、装置、介质。所述方法包括：建立资源预算，获取设备的显存参数，包括总可用显存和当前可用显存，设定推理会话的内存总预算；评估内存需求，包括静态计算和动态计算；计算总内存需求，若总内存需求大于总内存预算则启动迭代优化子流程；加载满足预算的配置，通过优化后的注意力掩码执行投机解码，包括：基于掩码结构并行生成候选词元序列，批量验证候选序列并接受或拒绝词元，更新已确认序列及键值缓存。本发明通过协同优化策略，智能地平衡推理速度、内存占用和生成质量，从而在内存有限的设备上实现高效、稳定的大模型投机解码推理。

技术关键词

面向资源受限内存注意力生成候选词键值节点数序列剪枝方法码头动态解码人工智能技术优化装置精度基座批量模板处理器

系统为您推荐了相关专利信息

一种中央空调冷水机组异常检测与诊断方法、系统、设备及介质

中央空调冷水机组空调机组诊断方法日志时序预测模型

模型训练方法及相关产品

共享存储空间内存文本一台设备模型训练方法

医学图像中阳性淋巴结的检测方法、系统、设备及介质

多尺度特征融合图像检测模型输出特征影像医学图像检测技术

基于深度学习的执法场所管理监督方法及系统

人脸识别模型注意力机制监督系统 Softmax函数人脸识别模块

基于空间对齐与特征耦合的矿井提升机钢丝绳缺陷检测方法

矿井提升机钢丝绳缺陷检测方法耦合特征检测网络模型融合注意力机制

一种面向资源受限设备的大语言模型推理优化方法及系统、装置、介质

站点导航

APP 下载