摘要
本发明公开了一种基于大语言模型进行高效无损文本压缩的方法,涉及文本压缩技术领域,包括以下步骤:对待压缩的文本数据进行预处理得到初始的token序列;选择并加载预训练的大语言模型,利用大语言模型对当前上下文信息进行分析,获取每个token的概率值,形成概率分布列表,并将当前token的排名序号记录下来;将上下文窗口向后移动一个token,更新上下文信息,直到所有token都被处理完毕;将所有token的排名序号按顺序记录,形成序号列表,得到最终的文本压缩结果。本发明不仅显著提高了压缩率,减少了存储空间和传输带宽的需求,还保持了较高的处理速度,适用于大规模文本数据的实时压缩和解压缩。
技术关键词
大语言模型
无损压缩算法
序列
列表
字符
大规模文本数据
滑动窗口技术
编码
深度学习框架
指针
注意力机制
参数
标识符
噪声
分词
关系
批量
策略
系统为您推荐了相关专利信息
热失控风险
监测预警方法
电池热失控
单体电池
时序
大语言模型
控制系统
特征提取模块
PID控制器
系统模块