摘要
本发明涉及文档智能处理技术领域,公开了一种基于结构语义融合的智能文档分片方法及系统。其中,该方法包括:对目标文档进行结构化解析处理得到统一结构节点树;对统一结构节点树进行语义单元边界识别得到目标切分点;基于目标切分点对目标文档进行约束分片优化得到适配大模型的结构化分片,约束分片优化包括语义质量约束和长度适配约束,语义质量约束被配置为规范分片的语义逻辑关联和上下文衔接关系,长度适配约束被配置为匹配大模型的输入长度上限和处理能力阈值。本发明既保障了分片内容的逻辑完整性;又有效提升了大模型对分片内容的理解效率与处理精度,为后续下游任务提供了高质量的结构化输入基础。
技术关键词
结构语义融合
智能文档
分片方法
业务流程框架
节点
滑动窗口机制
主题
注意力神经网络
层级
逻辑
标签
分片系统
样式
字体
模式识别
格式
场景
识别模块
系统为您推荐了相关专利信息
储能电池
监测数据分析方法
性能预测模型
冷却系统
电池管理系统