摘要
本发明提供了一种用于超长文本处理的数据集构建方法及系统,涉及数据分割技术领域。方法包括:获取待输入文件并将所述文件转化为txt格式,得到格式文件;将所述格式文件进行第一次清洗,得到第一清洗文件;统计所述清洗文件中高频词汇并进行高频词汇的符号代替,得到符号文件;对所述符号文件进行第二次清洗,得到第二清洗文件;基于动态阈值计算模型,结合大模型输入token限制、文本类型复杂程度因子及平均段落长度,对第二清洗文件进行分块,得到分块数据集;根据所述分块数据集得到输出数据集。本发明解决了现有技术中由于大型语言模型对输入的token数量有限制,导致在处理超长文本时存在信息丢失、语义理解障碍及效率低下的技术问题。
技术关键词
数据集构建方法
符号
分块
数据集构建系统
文本
因子
动态
格式
复杂度
输出模块
基准
元素
字典
语义
分段