摘要
本申请提供了一种文本分块方法及电子设备,涉及文本分割技术领域。该方法通过将目标文档按段落进行划分,得到多个初始段落组;利用预置的第一大语言模型,确定初始段落组中语义发生转折的截断段落;基于截断段落,对初始段落组进行重新划分,得到多个目标段落组;利用预置的第二大语言模型,确定目标段落组中语义发生转折的截断句点;基于截断句点,对目标段落组进行重新划分,得到多个目标文本块。从而,通过采用两阶段的语义文本分块方法,得到以句子为单位的文本块,使得分割后的文本块具有更精细的粒度,并且语义上具有更强的独立性和完整性,能够为RAG检索等下游任务提供更高质量的文本输入保证。
技术关键词
大语言模型
文本分块方法
语义
语句
电子设备
模板
处理器
样本
检测块
两阶段
字段
存储器
标记
系统为您推荐了相关专利信息
节点
网络安全态势感知
条件概率模型
网络拓扑结构
入口
空闲车位检测
像素
队列
Delaunay三角剖分
语义分割标注方法
远程数据采集系统
信息采集单元
强直性脊柱炎
数据采集方法
联合损失函数