跨格式文档自动转换为Markdown文档的方法、装置及表单增强方法、系统

AITNT
正文
推荐专利
跨格式文档自动转换为Markdown文档的方法、装置及表单增强方法、系统
申请号:CN202411648464
申请日期:2024-11-18
公开号:CN119598980B
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了跨格式文档自动转换为Markdown文档的方法、装置及表单增强方法、系统。该转Markdown文档方法包括:先获取文档图像;接着从文档图像中挖掘隐藏的结构信息,包括目标元素及其之间的层级关系;然后基于该结构信息对文档图像进行语义内容分析,获得语义内容分析结果;之后根据分析结果提取文档图像中的关键信息;将这些关键信息转换为Markdown格式,并以表格或列表的方式进行初步格式化,得到初步的Markdown表单;最后对初步Markdown表单进行优化,形成目标Markdown表单,从而完成跨格式文档自动转换为Markdown。该方法能够有效识别和转换文档中复杂的嵌套结构和不规则布局的表单,确保在转换为Markdown格式时表单信息的完整性和可读性。
技术关键词
表单 列表 语义 条件随机场 符号特征 布局结构 文本 拓扑结构编码 表格 格式化 CRF模型 图像结构信息 编辑距离算法 序列标注模型 拆分装置 注意力机制 元素
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号