一种面向资源受限设备的大语言模型推理优化方法及系统、装置、介质

AITNT
正文
推荐专利
一种面向资源受限设备的大语言模型推理优化方法及系统、装置、介质
申请号:CN202511034965
申请日期:2025-07-25
公开号:CN120996186A
公开日期:2025-11-21
类型:发明专利
摘要
本申请涉及人工智能技术领域,涉及一种面向资源受限设备的大语言模型推理优化方法及系统、装置、介质。所述方法包括:建立资源预算,获取设备的显存参数,包括总可用显存和当前可用显存,设定推理会话的内存总预算;评估内存需求,包括静态计算和动态计算;计算总内存需求,若总内存需求大于总内存预算则启动迭代优化子流程;加载满足预算的配置,通过优化后的注意力掩码执行投机解码,包括:基于掩码结构并行生成候选词元序列,批量验证候选序列并接受或拒绝词元,更新已确认序列及键值缓存。本发明通过协同优化策略,智能地平衡推理速度、内存占用和生成质量,从而在内存有限的设备上实现高效、稳定的大模型投机解码推理。
技术关键词
面向资源受限 内存 注意力 生成候选词 键值 节点数 序列 剪枝方法 码头 动态 解码 人工智能技术 优化装置 精度 基座 批量 模板 处理器
系统为您推荐了相关专利信息
1
一种中央空调冷水机组异常检测与诊断方法、系统、设备及介质
中央空调冷水机组 空调机组 诊断方法 日志 时序预测模型
2
模型训练方法及相关产品
共享存储空间 内存 文本 一台设备 模型训练方法
3
医学图像中阳性淋巴结的检测方法、系统、设备及介质
多尺度特征融合 图像检测模型 输出特征 影像 医学图像检测技术
4
基于深度学习的执法场所管理监督方法及系统
人脸识别模型 注意力机制 监督系统 Softmax函数 人脸识别模块
5
基于空间对齐与特征耦合的矿井提升机钢丝绳缺陷检测方法
矿井提升机钢丝绳 缺陷检测方法 耦合特征 检测网络模型 融合注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号