摘要
本发明涉及计算机技术领域,公开了模型训练方法、装置、计算机设备及存储介质,该方法包括:根据第一预设数量个预设参数分别设置去重函数,根据设置后的去重函数对初始语料数据进行处理,根据处理结果中词数据的长度,将词数据放入对应的分区文件,其中,分区文件用于记录对应长度的词数据;根据模型训练需求,从每个分区文件集包含的分区文件中获取第二预设数量个目标词数据,汇总目标词数据得到第三预设数量个训练数据集;分别利用训练数据集对初始模型进行训练,得到第三预设数量个训练后的模型。本发明解决了使用统一的处理方案处理各种文本语料,只能得出单一的训练数据集,无法对不同功能模型进行训练并保证训练质量的问题。
技术关键词
分区
数据
模型训练方法
参数
计算机设备
模型训练装置
可读存储介质
文本
标识
存储器
分词
处理器
指令
模块