摘要
本发明公开了一种大语言模型数值类型输入分词优化方法,包括:步骤一、利用动态树量化方法对[0,1]之间的数值进行量化,构建量化数值表;步骤二、将步骤一中构建的量化数值表扩充至大语言模型tokenizer词表中;步骤三、根据扩充后的tokenizer词表,对大语言模型的embedding层权重维度进行扩充,随机初始化扩充部分的权重;步骤四、对输入数据集中的数值类型特征进行处理和量化;步骤五、将处理和量化后的数值类型特征输入扩展后的tokenizer进行分词处理,减少分词后的总token数量。本发明还公开了实现上述分词优化方法的分词优化系统,具有广泛应用价值。
技术关键词
分词
数值
大语言模型
硬件系统
指数
正态分布方法
扩展模块
可读存储介质
数据
列表
动态
处理器
存储器
计算机
端点
符号
机制
编码
误差