一种基于大语言模型进行高效无损文本压缩的方法

正文

推荐专利

申请号：CN202411568397

申请日期：2024-11-05

公开号：CN119449041A

公开日期：2025-02-14

类型：发明专利

摘要

本发明公开了一种基于大语言模型进行高效无损文本压缩的方法，涉及文本压缩技术领域，包括以下步骤：对待压缩的文本数据进行预处理得到初始的token序列；选择并加载预训练的大语言模型，利用大语言模型对当前上下文信息进行分析，获取每个token的概率值，形成概率分布列表，并将当前token的排名序号记录下来；将上下文窗口向后移动一个token，更新上下文信息，直到所有token都被处理完毕；将所有token的排名序号按顺序记录，形成序号列表，得到最终的文本压缩结果。本发明不仅显著提高了压缩率，减少了存储空间和传输带宽的需求，还保持了较高的处理速度，适用于大规模文本数据的实时压缩和解压缩。

技术关键词

大语言模型无损压缩算法序列列表字符大规模文本数据滑动窗口技术编码深度学习框架指针注意力机制参数标识符噪声分词关系批量策略

系统为您推荐了相关专利信息

基于历史对话编辑的上下文学习能力引导方法

大语言模型编辑样本有效性消息

一种基于蓝牙的多人自组网对讲的实现方法

组网设备节点设备中间设备语音通道

一种基于图像的线束布线质量控制系统及布线控制方法

图纸布线接线识别模块实体

基于人工智能的电池热失控监测预警方法、系统及介质

热失控风险监测预警方法电池热失控单体电池时序

一种使用大语言模型整定PID参数的方法

大语言模型控制系统特征提取模块 PID控制器系统模块

一种基于大语言模型进行高效无损文本压缩的方法

站点导航

APP 下载