一种用于超长文本处理的数据集构建方法及系统

正文

推荐专利

申请号：CN202510654062

申请日期：2025-05-21

公开号：CN120579128A

公开日期：2025-09-02

类型：发明专利

摘要

本发明提供了一种用于超长文本处理的数据集构建方法及系统，涉及数据分割技术领域。方法包括：获取待输入文件并将所述文件转化为txt格式，得到格式文件；将所述格式文件进行第一次清洗，得到第一清洗文件；统计所述清洗文件中高频词汇并进行高频词汇的符号代替，得到符号文件；对所述符号文件进行第二次清洗，得到第二清洗文件；基于动态阈值计算模型，结合大模型输入token限制、文本类型复杂程度因子及平均段落长度，对第二清洗文件进行分块，得到分块数据集；根据所述分块数据集得到输出数据集。本发明解决了现有技术中由于大型语言模型对输入的token数量有限制，导致在处理超长文本时存在信息丢失、语义理解障碍及效率低下的技术问题。

技术关键词

数据集构建方法符号分块数据集构建系统文本因子动态格式复杂度输出模块基准元素字典语义分段

一种用于超长文本处理的数据集构建方法及系统

站点导航

APP 下载