摘要
本发明提供基于多模型协同的文档目录错误修复方法及系统,包括将文档构建为图结构,每个段落作为节点并提取语义、格式和位置特征;使用三层图卷积神经网络处理图结构获得融合全局信息的节点表示;筛选置信度超过阈值的节点作为候选标题;提取候选标题的文本和视觉特征;对过滤后的候选进行二分类判别,形成真实标题集合;检测标题错误并构建包含上下文的输入序列,对长文档使用自适应滑动窗口处理;生成多个候选并评分选优;匹配新旧标题;最小化格式一致性和序号连续性代价。本发明对于格式不规范或缺少明显标记的标题,也能通过其在图中的结构特征准确识别,大幅提升了标题识别的召回率和准确率。
技术关键词
错误修复方法
多模型协同
交叉注意力机制
格式
视觉特征
层级
动态规划算法
目录
融合全局信息
节点
指数衰减函数
语义
文本
连续性
序列
错误修复系统
规则集
错误检测模块
错误检测方法