一种面向RAG系统的智能自适应文档切分方法

正文

推荐专利

申请号：CN202511076218

申请日期：2025-08-01

公开号：CN120911458A

公开日期：2025-11-07

类型：发明专利

摘要

本发明涉及自然语言处理（NLP）技术领域，尤其涉及一种面向RAG系统的智能自适应文档切分方法。本发明包括步骤S1：采用深度学习模型根据文档内容密度、结构信息以及上下文语义动态调整窗口大小和步长；步骤S2：结合窗口表示结果，采用语言模型计算计算切分块的上下文语义相似度，并基于上述上下文语义相似度自动调整重叠区域大小；步骤S3：基于上下文切分块表示结果，通过引入BERT模型，使切分块与上下文联系，自动调整重叠部分和窗口大小，优化切分效果。本发明的目的在于提供一种面向RAG系统的智能自适应文档切分方法，以提高文档切分的效率和质量，从而优化RAG系统的召回率和生成质量。

技术关键词

BERT模型语义深度学习模型自然语言文档特征密度动态非线性冗余文本

系统为您推荐了相关专利信息

基于多模态Transformer的代谢物-药物细粒度相互作用预测方法

多模态网络知识图谱构建技术多层感知机基因引入注意力机制

一种基于高分卫星的裸地扬尘源监测方法、装置及系统

监测方法影像接收模块在线学习机制迁移学习技术数据管理平台

一种基于信令特征分析的GOIP诈骗防范方法、设备及介质

防范方法信令号码深度学习模型特征工程

基于AI的分割虚拟图像并显示的方法、系统及存储介质

主题顶点网格图像关键点

基于分布式智能知识管理的个性化客户服务方法及系统

客户服务方法分布式智能分布式数据库多模态情感分析知识图谱查询

一种面向RAG系统的智能自适应文档切分方法

站点导航

APP 下载