一种大模型超长文本切分方法及装置

正文

推荐专利

一种大模型超长文本切分方法及装置

申请号：CN202510559046

申请日期：2025-04-30

公开号：CN120087358B

公开日期：2025-07-22

类型：发明专利

摘要

本发明提供一种大模型超长文本切分方法，包括获取初始的文本数据集，划分为固定长度子段并初始化子种群；利用语言模型计算子种群中句子连贯性和信息完整性，作为适应度函数对个体进行评估；设置遗传算法的相关参数，并采用遗传算法迭代公式更新种群，获得局部最优的子种群方案；随后将所有局部最优的子种群进行合并，构建出全局级别种群；通过遗传算法对该全局种群进行优化，确定最终的文本段落边界。实施本发明，实现对文本结构更精确、更高效的划分，提升语义连贯性并降低处理复杂度。

技术关键词

文本切分方法遗传算法文本段落指标切分装置存储器处理器复杂度语义参数数据代表

一种大模型超长文本切分方法及装置

站点导航

APP 下载