摘要
本申请公开了一种数据文件中生僻字乱码的处理方法及相关装置,涉及数据恢复领域,包括:各汉字的字符编码,对各汉字的字符编码均进行查询处理,查询处理包括:按照字符编码所包括的字节的排列顺序,依次将各字节作为当前字节,确定由当前字节和当前字节之前的字节构成的字节组所落入的编码范围,若落入乱码范围,则确定汉字为乱码,并提取当前字节之前的各字节;将连续排列的乱码确定为一个乱码词组,利用关联规则挖掘算法,对每个乱码词组的提取的各字节和预设的高频生僻字词库中包括的高频生僻字词进行处理,获得与乱码词组对应的生僻字词,将乱码词组替换为与乱码词组对应的生僻字词。本申请避免了数据文件的使用受到这些乱码的影响。
技术关键词
关联规则挖掘算法
汉字
编码
字符
位置提取
计算机可读指令
电子设备
计算机存储介质
存储计算机程序
计算机程序产品
处理器
存储器
模块