摘要
本发明属于自然语言信息处理技术领域,公开了基于自然语言特征和自信息的文本压缩方法,具体技术方案为:步骤一、对开源语料库中的Google问答数据集进行数据预处理,删除无用信息,模拟多文档检索,获得面向长上下文压缩的数据集,进而获得多文档长文本;步骤二、通过对该多文档长文本进行自信息的评估得到短语粒度、文本自信息分布,同时进行词性分析、命名实体分析、依存关系分析的自然语言特征的提取,优化基于自然语言特征的分布,获得分布优化后的压缩文本;步骤三、压缩文本prompt设置,构建目标问答模型,获得问答性能指标并应用于下游任务中,本发明在长文本压缩准确性上非常出色,提升了文本压缩的性能。
技术关键词
自然语言
文本压缩方法
问答模型
黑盒优化
过滤方法
数据
实体
列表
定义
参数
系统为您推荐了相关专利信息
关键词提取方法
语义结构
文本
关键词提取装置
模板
自然语言文本
关键字提取方法
语义
计算机程序指令
意图