一种基于大语言模型进行高效无损文本压缩的方法

AITNT
正文
推荐专利
一种基于大语言模型进行高效无损文本压缩的方法
申请号:CN202411568397
申请日期:2024-11-05
公开号:CN119449041A
公开日期:2025-02-14
类型:发明专利
摘要
本发明公开了一种基于大语言模型进行高效无损文本压缩的方法,涉及文本压缩技术领域,包括以下步骤:对待压缩的文本数据进行预处理得到初始的token序列;选择并加载预训练的大语言模型,利用大语言模型对当前上下文信息进行分析,获取每个token的概率值,形成概率分布列表,并将当前token的排名序号记录下来;将上下文窗口向后移动一个token,更新上下文信息,直到所有token都被处理完毕;将所有token的排名序号按顺序记录,形成序号列表,得到最终的文本压缩结果。本发明不仅显著提高了压缩率,减少了存储空间和传输带宽的需求,还保持了较高的处理速度,适用于大规模文本数据的实时压缩和解压缩。
技术关键词
大语言模型 无损压缩算法 序列 列表 字符 大规模文本数据 滑动窗口技术 编码 深度学习框架 指针 注意力机制 参数 标识符 噪声 分词 关系 批量 策略
系统为您推荐了相关专利信息
1
基于历史对话编辑的上下文学习能力引导方法
大语言模型 编辑 样本 有效性 消息
2
一种基于蓝牙的多人自组网对讲的实现方法
组网设备 节点设备 中间设备 语音 通道
3
一种基于图像的线束布线质量控制系统及布线控制方法
图纸 布线 接线 识别模块 实体
4
基于人工智能的电池热失控监测预警方法、系统及介质
热失控风险 监测预警方法 电池热失控 单体电池 时序
5
一种使用大语言模型整定PID参数的方法
大语言模型 控制系统 特征提取模块 PID控制器 系统模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号