摘要
本发明提出一种基于FP8的大语言模型量化方法及系统,属于人工智能技术技术领域,包括:使用通用的FP8量化方法对大模型权重进行量化,将量化数据表示为二进制格式,将二进制格式数据转化为INT8数据,使用INT8数据在硬件上加载,在计算时,将INT8数据再通过二进制表示转化为FP8数据类型,同时将上述转换进行融合,降低转换导致的效率延迟问题,通过上述方式,可以利用FP8的量化方式,适用于不支持FP8数据类型的硬件,可以用于问答、生成等大模型任务中,具有较高的实用价值和创新价值。
技术关键词
大语言模型
数据
人工智能技术技术
格式
深度学习模型
可读存储介质
元素
计算机程序指令
量化系统
存储计算机程序
电子设备
术语
输出模块
参数
处理器
存储器
系统为您推荐了相关专利信息
风电消纳能力
电力系统调度方法
电力系统调度系统
隐马尔可夫模型
风电场发电量
图像分割模型
图像分割方法
融合特征
多模态
编码器模块