摘要
本发明公开了一种大模型检索增强生成的自适应切片的文档切分方法,涉及大模型检索增强生成技术领域,方法包括:获取待切分文档,并对所述待切分文档按照标题类型进行切分,得到至少一组原始切块;根据任一原始切块对应的信息密度以及主题变化度,计算该原始切块的最优切分数量;根据所述最优切分数量对该原始切块进行切分处理。本发明先将文档按照层次标题进行切分,然后计算层次标题下的信息密度和主题变化度,以层级标题为单位,自动计算该层级标题下的最优切分大小,来指导文档的自适应切分,以提高后续检索和生成任务的效果。
技术关键词
切块
主题
层级
切片
切分系统
电子设备
密度
可读存储介质
生成技术
处理器
计算机
存储器
代表
模块
字符
算法
参数
系统为您推荐了相关专利信息
DBSCAN算法
去重方法
语句
邻域搜索方法
SQL语法
数据集成方法
增量更新
语句
数据集成平台
数据映射关系
修复路径规划方法
航空发动机叶片
加工点
样条
曲线
电力电子系统
电子器件
受控电流源
仿真系统
仿真方法
航向估计方法
深度学习模型
多头注意力机制
全局特征提取
数据