摘要
本发明提供了一种基于RAG的文本块动态切分方法及系统,方法包含解析文档的多级目录结构,以目录节点为基准切分文本块;对无目录或目录不完整的文档,转入规则和语义的混合切分模式;对连续文本流执行潜在狄利克雷分配主题建模,实时计算每段文本的主题分布向量;对检测到的话题边界执行自适应切分,在话题突变点插入硬切分标记,对渐变话题区域采用软切分;滑动窗口的初始窗口尺寸根据文档类型设定,实时监测窗口内语义密度;层次化分块重组。系统包含切分模式模块、标记确认模块及分块重组模块。本发明使RAG检索的准确率提升,内存占用降低,同时支持流式吞吐量。
技术关键词
目录
文本
语义
滑动窗口
话题
动态
分块
节点
三元组
容器单元
标记特征
锚点
层级
历史数据特征
数据分布特征
模式
切分系统
主题集合
系统为您推荐了相关专利信息
Harris角点检测
融合特征
特征点集合
三维表面模型
生成多尺度
铁路有砟道床
脏污
语义分割模型
非易失性存储介质
铁路道床
数据中心
数据集成方法
数据集成模型
多业务
抽取结构化数据