一种文本分块方法及电子设备

AITNT
正文
推荐专利
一种文本分块方法及电子设备
申请号:CN202510556641
申请日期:2025-04-29
公开号:CN120542411A
公开日期:2025-08-26
类型:发明专利
摘要
本申请提供了一种文本分块方法及电子设备,涉及文本分割技术领域。该方法通过将目标文档按段落进行划分,得到多个初始段落组;利用预置的第一大语言模型,确定初始段落组中语义发生转折的截断段落;基于截断段落,对初始段落组进行重新划分,得到多个目标段落组;利用预置的第二大语言模型,确定目标段落组中语义发生转折的截断句点;基于截断句点,对目标段落组进行重新划分,得到多个目标文本块。从而,通过采用两阶段的语义文本分块方法,得到以句子为单位的文本块,使得分割后的文本块具有更精细的粒度,并且语义上具有更强的独立性和完整性,能够为RAG检索等下游任务提供更高质量的文本输入保证。
技术关键词
大语言模型 文本分块方法 语义 语句 电子设备 模板 处理器 样本 检测块 两阶段 字段 存储器 标记
系统为您推荐了相关专利信息
1
一种基于知识图谱的网络安全态势感知预测方法及装置
节点 网络安全态势感知 条件概率模型 网络拓扑结构 入口
2
一种基于最大匹配和车位分割的空闲车位检测方法
空闲车位检测 像素 队列 Delaunay三角剖分 语义分割标注方法
3
一种芯粒间通信控制方法、装置、设备、介质及产品
接收端 拥塞信息 报文 计算机程序产品 芯片
4
一种基于知识图谱的分子性质预测大语言模型构建方法
大语言模型 三元组 端点 分子 节点
5
用于强直性脊柱炎早期筛查的远程数据采集系统和方法
远程数据采集系统 信息采集单元 强直性脊柱炎 数据采集方法 联合损失函数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号