摘要
本发明公开了跨格式文档自动转换为Markdown文档的方法、装置及表单增强方法、系统。该转Markdown文档方法包括:先获取文档图像;接着从文档图像中挖掘隐藏的结构信息,包括目标元素及其之间的层级关系;然后基于该结构信息对文档图像进行语义内容分析,获得语义内容分析结果;之后根据分析结果提取文档图像中的关键信息;将这些关键信息转换为Markdown格式,并以表格或列表的方式进行初步格式化,得到初步的Markdown表单;最后对初步Markdown表单进行优化,形成目标Markdown表单,从而完成跨格式文档自动转换为Markdown。该方法能够有效识别和转换文档中复杂的嵌套结构和不规则布局的表单,确保在转换为Markdown格式时表单信息的完整性和可读性。
技术关键词
表单
列表
语义
条件随机场
符号特征
布局结构
文本
拓扑结构编码
表格
格式化
CRF模型
图像结构信息
编辑距离算法
序列标注模型
拆分装置
注意力机制
元素