摘要
本申请涉及人工智能技术领域,涉及一种面向资源受限设备的大语言模型推理优化方法及系统、装置、介质。所述方法包括:建立资源预算,获取设备的显存参数,包括总可用显存和当前可用显存,设定推理会话的内存总预算;评估内存需求,包括静态计算和动态计算;计算总内存需求,若总内存需求大于总内存预算则启动迭代优化子流程;加载满足预算的配置,通过优化后的注意力掩码执行投机解码,包括:基于掩码结构并行生成候选词元序列,批量验证候选序列并接受或拒绝词元,更新已确认序列及键值缓存。本发明通过协同优化策略,智能地平衡推理速度、内存占用和生成质量,从而在内存有限的设备上实现高效、稳定的大模型投机解码推理。
技术关键词
面向资源受限
内存
注意力
生成候选词
键值
节点数
序列
剪枝方法
码头
动态
解码
人工智能技术
优化装置
精度
基座
批量
模板
处理器
系统为您推荐了相关专利信息
中央空调冷水机组
空调机组
诊断方法
日志
时序预测模型
多尺度特征融合
图像检测模型
输出特征
影像
医学图像检测技术
人脸识别模型
注意力机制
监督系统
Softmax函数
人脸识别模块
矿井提升机钢丝绳
缺陷检测方法
耦合特征
检测网络模型
融合注意力机制