摘要
本公开提供了一种文档切分方法、装置及电子设备,涉及自然语言处理、大语言模型、智能搜索、知识图谱等人工智能技术领域,可应用于知识库构建、智能问答系统、文档管理系统等场景。具体实现方案为:对待处理文档进行文档解析,得到待处理文档的解析结果,解析结果包括布局信息和标题的层级信息;基于标题的层级信息,构建标题树,标题树中节点关联的标题为多级复合标题;基于布局信息和标题树,按照给定的最大切片长度对待处理文档的文档区域进行拆分重组处理,得到待处理文档的文档切片。本公开可以显著提高文档切片的精度和灵活性,增强文档的可读性和用户体验。
技术关键词
切片
层级
布局
深度优先搜索方法
节点
表格
文档管理系统
智能问答系统
回溯算法
电子设备
切分装置
文本
大语言模型
人工智能技术
计算机程序产品
处理器通信
自然语言
指令
系统为您推荐了相关专利信息
应急响应措施
入侵识别方法
多头注意力机制
动态更新
决策支持系统
项目全生命周期
树状结构数据
大语言模型
科技
文档分类
动态监控
预测网络流量
分析方法
节点
物理拓扑信息
等值计算方法
无功补偿设备
矩阵
电网运行方式
电力电子变流器
节点
计算机执行指令
标签方式
Kubernetes集群
分布式计算技术