一种数据文件中生僻字乱码的处理方法及相关装置

正文

推荐专利

申请号：CN202411726061

申请日期：2024-11-28

公开号：CN119538863B

公开日期：2025-11-25

类型：发明专利

摘要

本申请公开了一种数据文件中生僻字乱码的处理方法及相关装置，涉及数据恢复领域，包括：各汉字的字符编码，对各汉字的字符编码均进行查询处理，查询处理包括：按照字符编码所包括的字节的排列顺序，依次将各字节作为当前字节，确定由当前字节和当前字节之前的字节构成的字节组所落入的编码范围，若落入乱码范围，则确定汉字为乱码，并提取当前字节之前的各字节；将连续排列的乱码确定为一个乱码词组，利用关联规则挖掘算法，对每个乱码词组的提取的各字节和预设的高频生僻字词库中包括的高频生僻字词进行处理，获得与乱码词组对应的生僻字词，将乱码词组替换为与乱码词组对应的生僻字词。本申请避免了数据文件的使用受到这些乱码的影响。

技术关键词

关联规则挖掘算法汉字编码字符位置提取计算机可读指令电子设备计算机存储介质存储计算机程序计算机程序产品处理器存储器模块

一种数据文件中生僻字乱码的处理方法及相关装置

站点导航

APP 下载