摘要
本公开涉及一种语料筛选及语言模型训练方法、装置、设备及存储介质。基于语料的编码数据中的换行符,将编码数据划分为多段子编码数据;判断子编码数据中是否存在属于第一字符类别的第一字符;针对存在第一字符的第一子编码数据,基于第一比例和/或第二比例判断第一子编码数据对应的解码后语料是否可用,第一比例用于表征第一子编码数据中第一字符所占的比例,第二比例用于表征第一子编码数据对应的解码后语料中的常见字词或非常见字词所占的比例。由此,可以在提升语料质量的同时尽可能多的保留语料中的可用部分。
技术关键词
语言模型训练方法
语料筛选方法
字符
解码
训练语言模型
非暂时性机器可读存储介质
字词
模型训练装置
处理器
筛选装置
模块
电子设备
存储器