摘要
本申请提供一种基于父子文档匹配的上下文重构方法及系统,首先获取目标父文档及其关联子文档集合,子文档集合含多个子文档单元,各单元有上下文段落与段落标识符,接着对目标父文档作层级结构解析,提取包含段落层级分布、标题嵌套深度的全局结构特征,以及含段落核心词序列、语义连贯性指标的局部内容特征。然后依子文档单元段落标识符确定其与父文档的层级隶属关系参数,匹配上下文段落与对应段落层级,再基于上述特征对上下文段落进行含段落边界校准和语义冗余消除的动态语义对齐处理,生成重构上下文数据块,据此生成目标父文档优化版本并输出至文档存储系统触发版本更新操作。
技术关键词
局部内容特征
重构方法
层级
文件格式一致性
标识符
版本更新
存储系统
更新时间戳
主题关键词
增量更新
核心
校验码验证
序列
映射关系表
数据
校准
指标
语义向量