摘要
本发明涉及数据处理技术领域,具体涉及一种本地存档相关数据快速压缩方法,包括:将任意一个词语的所有其他词语划分为相似度高的簇和相似度低的簇;根据文本中任意一个词语与相似度高和相似度低的簇中每个词语语义之间的相似度以及每个词语出现的频率,得到每个词语在文本中的重要性;根据文本中任意两个词语同时出现的频次以及所有词语的数量,得到文本中任意两个词语同时出现的概率值;根据文本中任意两个词语同时出现的频次、概率值以及每个词语的频率权重系数,得到文本中每个词语频率权重指标;根据文本中每个词语频率权重指标调整每个词语出现的频率,构建哈夫曼树进行数据压缩。本发明提高了文本数据的压缩效率。
技术关键词
词语
文本
频率
语义
数据压缩
指标
度度量方法
滑动窗口
数据处理技术
编码
系统为您推荐了相关专利信息
检索系统
权限控制机制
度计算方法
机器学习模型
可视化界面
修正方法
文本
非暂态计算机可读存储介质
预训练语言模型
对象