摘要
本发明提供一种大模型超长文本切分方法,包括获取初始的文本数据集,划分为固定长度子段并初始化子种群;利用语言模型计算子种群中句子连贯性和信息完整性,作为适应度函数对个体进行评估;设置遗传算法的相关参数,并采用遗传算法迭代公式更新种群,获得局部最优的子种群方案;随后将所有局部最优的子种群进行合并,构建出全局级别种群;通过遗传算法对该全局种群进行优化,确定最终的文本段落边界。实施本发明,实现对文本结构更精确、更高效的划分,提升语义连贯性并降低处理复杂度。
技术关键词
文本切分方法
遗传算法
文本段落
指标
切分装置
存储器
处理器
复杂度
语义
参数
数据
代表