基于自然语言特征和自信息的文本压缩方法

正文

推荐专利

基于自然语言特征和自信息的文本压缩方法

申请号：CN202411438245

申请日期：2024-10-15

公开号：CN119396784A

公开日期：2025-02-07

类型：发明专利

摘要

本发明属于自然语言信息处理技术领域，公开了基于自然语言特征和自信息的文本压缩方法，具体技术方案为：步骤一、对开源语料库中的Google问答数据集进行数据预处理，删除无用信息，模拟多文档检索，获得面向长上下文压缩的数据集，进而获得多文档长文本；步骤二、通过对该多文档长文本进行自信息的评估得到短语粒度、文本自信息分布，同时进行词性分析、命名实体分析、依存关系分析的自然语言特征的提取，优化基于自然语言特征的分布，获得分布优化后的压缩文本；步骤三、压缩文本prompt设置，构建目标问答模型，获得问答性能指标并应用于下游任务中，本发明在长文本压缩准确性上非常出色，提升了文本压缩的性能。

技术关键词

自然语言文本压缩方法问答模型黑盒优化过滤方法数据实体列表定义参数

系统为您推荐了相关专利信息

关键词提取方法、装置、设备及其存储介质

关键词提取方法语义结构文本关键词提取装置模板

数据交易处理方法、装置、设备、存储介质及程序产品

数据交易平台客户端计算机执行指令上架报告

用于改进信息检索和生成质量的文本处理方法及装置、计算机系统

文本处理方法信息检索分块计算机系统语义

检索语义获取方法、关键字提取方法、设备及产品

自然语言文本关键字提取方法语义计算机程序指令意图

一种用于计量与采集设备检测的模组化智能检测系统

智能检测系统采集设备检测点场景字符

基于自然语言特征和自信息的文本压缩方法

站点导航

APP 下载