一种大语言模型数值类型输入分词优化方法、系统及应用

AITNT
正文
推荐专利
一种大语言模型数值类型输入分词优化方法、系统及应用
申请号:CN202510400579
申请日期:2025-04-01
公开号:CN120471053A
公开日期:2025-08-12
类型:发明专利
摘要
本发明公开了一种大语言模型数值类型输入分词优化方法,包括:步骤一、利用动态树量化方法对[0,1]之间的数值进行量化,构建量化数值表;步骤二、将步骤一中构建的量化数值表扩充至大语言模型tokenizer词表中;步骤三、根据扩充后的tokenizer词表,对大语言模型的embedding层权重维度进行扩充,随机初始化扩充部分的权重;步骤四、对输入数据集中的数值类型特征进行处理和量化;步骤五、将处理和量化后的数值类型特征输入扩展后的tokenizer进行分词处理,减少分词后的总token数量。本发明还公开了实现上述分词优化方法的分词优化系统,具有广泛应用价值。
技术关键词
分词 数值 大语言模型 硬件系统 指数 正态分布方法 扩展模块 可读存储介质 数据 列表 动态 处理器 存储器 计算机 端点 符号 机制 编码 误差
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号