基于自然语言特征和自信息的文本压缩方法

AITNT
正文
推荐专利
基于自然语言特征和自信息的文本压缩方法
申请号:CN202411438245
申请日期:2024-10-15
公开号:CN119396784A
公开日期:2025-02-07
类型:发明专利
摘要
本发明属于自然语言信息处理技术领域,公开了基于自然语言特征和自信息的文本压缩方法,具体技术方案为:步骤一、对开源语料库中的Google问答数据集进行数据预处理,删除无用信息,模拟多文档检索,获得面向长上下文压缩的数据集,进而获得多文档长文本;步骤二、通过对该多文档长文本进行自信息的评估得到短语粒度、文本自信息分布,同时进行词性分析、命名实体分析、依存关系分析的自然语言特征的提取,优化基于自然语言特征的分布,获得分布优化后的压缩文本;步骤三、压缩文本prompt设置,构建目标问答模型,获得问答性能指标并应用于下游任务中,本发明在长文本压缩准确性上非常出色,提升了文本压缩的性能。
技术关键词
自然语言 文本压缩方法 问答模型 黑盒优化 过滤方法 数据 实体 列表 定义 参数
系统为您推荐了相关专利信息
1
关键词提取方法、装置、设备及其存储介质
关键词提取方法 语义结构 文本 关键词提取装置 模板
2
数据交易处理方法、装置、设备、存储介质及程序产品
数据交易平台 客户端 计算机执行指令 上架 报告
3
用于改进信息检索和生成质量的文本处理方法及装置、计算机系统
文本处理方法 信息检索 分块 计算机系统 语义
4
检索语义获取方法、关键字提取方法、设备及产品
自然语言文本 关键字提取方法 语义 计算机程序指令 意图
5
一种用于计量与采集设备检测的模组化智能检测系统
智能检测系统 采集设备 检测点 场景 字符
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号