一种基于双向块状浮点的大语言模型推理加速方法

AITNT
正文
推荐专利
一种基于双向块状浮点的大语言模型推理加速方法
申请号:CN202510790892
申请日期:2025-06-13
公开号:CN120851185A
公开日期:2025-10-28
类型:发明专利
摘要
本申请适用于计算机技术领域,提供了一种基于双向块状浮点的大语言模型推理加速方法,包括:通过将输入文本编码为Token序列,并在Transformer推理过程中以双向块状浮点数格式表示隐藏表示和logits,结合基于双向块状浮点数的查表法的Softmax归一化方法,实现低比特高效推理,生成推理结果。本申请在实现了在保持生成精度的同时,显著降低推理过程的计算复杂度与存储开销,提高了大语言模型的推理速度与能效比。
技术关键词
浮点数 查表法 注意力 贪心策略 序列 格式 文本 前馈神经网络 查找表 标志位 归一化方法 可读存储介质 指数 加速装置 处理器 拼接模块 编码 数值 非线性
系统为您推荐了相关专利信息
1
一种电缆故障检测方法和系统
电缆故障检测方法 检测电缆 故障分类器 历史故障数据 决策树模型
2
一种空间实验室用的蓝藻养殖生态控制方法
生态控制方法 光生物反应器 轮廓系数 碳酸钙 光照
3
一种面向脑卒中用户的生理参数智能检测处理方法和装置
生理 序列 计算机可存储介质 矩阵 信息数据处理终端
4
一种基于图像和激光点云的一张图公路资产检测方法
资产 公路 全卷积网络 卷积网络模型 点云特征
5
一种基于组合权重的路基路面沉陷成因机制分析方法
指标 路基 网络分析法 矩阵 路段
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号