一种用于超长文本处理的数据集构建方法及系统

AITNT
正文
推荐专利
一种用于超长文本处理的数据集构建方法及系统
申请号:CN202510654062
申请日期:2025-05-21
公开号:CN120579128A
公开日期:2025-09-02
类型:发明专利
摘要
本发明提供了一种用于超长文本处理的数据集构建方法及系统,涉及数据分割技术领域。方法包括:获取待输入文件并将所述文件转化为txt格式,得到格式文件;将所述格式文件进行第一次清洗,得到第一清洗文件;统计所述清洗文件中高频词汇并进行高频词汇的符号代替,得到符号文件;对所述符号文件进行第二次清洗,得到第二清洗文件;基于动态阈值计算模型,结合大模型输入token限制、文本类型复杂程度因子及平均段落长度,对第二清洗文件进行分块,得到分块数据集;根据所述分块数据集得到输出数据集。本发明解决了现有技术中由于大型语言模型对输入的token数量有限制,导致在处理超长文本时存在信息丢失、语义理解障碍及效率低下的技术问题。
技术关键词
数据集构建方法 符号 分块 数据集构建系统 文本 因子 动态 格式 复杂度 输出模块 基准 元素 字典 语义 分段
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号