摘要
本发明提供了一种文本分块方法、系统、检索增强生成装置、电子设备、存储介质及计算机程序产品,该方法包括:获取待处理文本;基于预设的目标文本块的长度阈值区间,将长度小于长度阈值区间的上限值的待处理文本添加进文本块集合中;将长度不小于长度阈值区间的上限值的待处理文本进行切分得到分段自然段,并将分段自然段依次添加进段落列表中;遍历段落列表,将长度在长度阈值区间内的分段自然段添加进文本块集合中;将长度小于长度阈值区间的下限值的分段自然段进行字符串拼接融合;将长度不小于长度阈值区间的上限值的分段自然段进行语义层级边界切分。本发明能产生长度均衡且能更好保留语义完整性的文本块结果集合。
技术关键词
分段
文本分块方法
列表
计算机程序产品
生成装置
语义
层级
分子
电子设备
处理器
存储器
模块
重构
系统为您推荐了相关专利信息
人工智能芯片
阶段
数据并行策略
矩阵
并行运行方法
生成方法
电源设备
新型电力系统
坐标
电力系统设备