一种大语言模型数值类型输入分词优化方法、系统及应用

正文

推荐专利

申请号：CN202510400579

申请日期：2025-04-01

公开号：CN120471053A

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了一种大语言模型数值类型输入分词优化方法，包括：步骤一、利用动态树量化方法对[0，1]之间的数值进行量化，构建量化数值表；步骤二、将步骤一中构建的量化数值表扩充至大语言模型tokenizer词表中；步骤三、根据扩充后的tokenizer词表，对大语言模型的embedding层权重维度进行扩充，随机初始化扩充部分的权重；步骤四、对输入数据集中的数值类型特征进行处理和量化；步骤五、将处理和量化后的数值类型特征输入扩展后的tokenizer进行分词处理，减少分词后的总token数量。本发明还公开了实现上述分词优化方法的分词优化系统，具有广泛应用价值。

技术关键词

分词数值大语言模型硬件系统指数正态分布方法扩展模块可读存储介质数据列表动态处理器存储器计算机端点符号机制编码误差

一种大语言模型数值类型输入分词优化方法、系统及应用

站点导航

APP 下载