摘要
本发明属于非结构化文档切分技术领域,涉及一种基于标题增强与多模态的非结构化文档切分方法,采用标题增强模块对文本类文档进行切分,该模块采用启发式规则引擎,结合文本形态特征、上下文语义与排版线索,对文档的候选标题进行评估,以确认标题;采用图像超分、布局检测、元素判断过程、多模态大模型以及光学字符识别模型对图像表格类文档进行切分,图像超分用于增强图像品质,布局检测用于对超分后的图像进行布局检测,根据检测结果通过元素判断过程判断文档中是否存在不便于光学字符识别模型解析的元素,以通过多模态大模型与光学字符识别模型相结合对文档进行解析,提升响应速度。
技术关键词
光学字符识别
启发式规则
自定义规则
非结构化文档
文本
图像
布局
元素
条件随机场
语义
多模态
自然语言
表格
混合结构
预训练语言模型
滑动窗口
标签
检测头
特征提取器
句法结构
系统为您推荐了相关专利信息
文本特征向量
语音特征参数
文本数据提取
风险评估方法
词语
文档解析方法
元素
大语言模型
计算机程序产品
布局
预训练语言模型
计算机执行指令
逻辑
语义
模式识别技术