摘要
本发明公开了一种基於多模态融合与块级嵌入的 PDF 文档智能解析系统及方法。所述方法包括:获取待解析 PDF 文档;提取所述待解析 PDF 文档中的文本信息以及图像;将所述文本信息以及所述图像特徵输入至块级嵌入的多模态语言模型中进行处理,以得到结构化的文本数据、标签以及边界框信息;输出所述结构化的文本数据、所述标签以及所述边界框信息;其中,所述块级嵌入的多模态语言模型是在多模态预训练模型中引入块嵌入,通过结合文本信息和图像,为 PDF 文档中的每个块生成独立的嵌入表示。通过实施本发明的方法可实现高效精准地解析复杂 PDF 文档,整合多模态信息,并提升电子签名场景下合同处理和智能分析精度。
技术关键词
智能解析系统
文本
多模态信息
预训练模型
图像
标签
数据
场景
精度
系统为您推荐了相关专利信息
组织病理图像
自动分类方法
自动分类系统
人工智能医学图像处理技术
乳腺癌亚型
工业相机支架
苹果分选机
剔除机构
图像识别系统
分流阀