基于RAG的文本块动态切分方法及系统

AITNT
正文
推荐专利
基于RAG的文本块动态切分方法及系统
申请号:CN202510489841
申请日期:2025-04-18
公开号:CN120353880B
公开日期:2025-09-16
类型:发明专利
摘要
本发明提供了一种基于RAG的文本块动态切分方法及系统,方法包含解析文档的多级目录结构,以目录节点为基准切分文本块;对无目录或目录不完整的文档,转入规则和语义的混合切分模式;对连续文本流执行潜在狄利克雷分配主题建模,实时计算每段文本的主题分布向量;对检测到的话题边界执行自适应切分,在话题突变点插入硬切分标记,对渐变话题区域采用软切分;滑动窗口的初始窗口尺寸根据文档类型设定,实时监测窗口内语义密度;层次化分块重组。系统包含切分模式模块、标记确认模块及分块重组模块。本发明使RAG检索的准确率提升,内存占用降低,同时支持流式吞吐量。
技术关键词
目录 文本 语义 滑动窗口 话题 动态 分块 节点 三元组 容器单元 标记特征 锚点 层级 历史数据特征 数据分布特征 模式 切分系统 主题集合
系统为您推荐了相关专利信息
1
一种多方协作设计桥梁模型的批注生成方法、介质及设备
桥梁模型 生成方法 BIM软件 识别构件 带时间
2
一种基于数字化图像的建模优化处理方法与系统
Harris角点检测 融合特征 特征点集合 三维表面模型 生成多尺度
3
基于机器视觉的铁路有砟道床表面脏污量化方法及装置
铁路有砟道床 脏污 语义分割模型 非易失性存储介质 铁路道床
4
一种信息化多业务数据集成方法、系统、设备及介质
数据中心 数据集成方法 数据集成模型 多业务 抽取结构化数据
5
一种基于大语言模型的AI数字人家教方法及装置
大语言模型 教学 视频生成模型 文本 音频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号